في وقت تتطور فيه أنظمة البحث التلقائي بشكل مذهل، يظهر سؤال رئيسي: هل نحن حقًا قريبون من تحقيق البحث الذاتي الكامل (True Auto-Research)؟
أظهرت الدراسات الحديثة أن أنظمة البحث، مثل ResearchArena، يمكنها إنتاج أبحاث كاملة، لكن الجودة تبقى محل تساؤل. تعتبر ResearchArena إطارًا بسيطًا يمكّن العديد من الوكلاء (Agents) مثل Claude Code وCodex وKimi Code من تنفيذ الدورات البحثية بشكل مستقل، بدءًا من الفكرة حتى كتابة الورقة، تحت إشراف خفيف.
وعلى مدار 13 موضوعاً في علوم الحاسوب وثلاث تجارب لكل مجموعة من الوكلاء، أنتجت ResearchArena 117 ورقة علمية تم تقييمها عبر ثلاث آليات مختلفة: مراجعة يدوية للورقة (SAR)، ومراجعة تستند إلى العناصر (PR)، ومراجعة شاملة من قبل البشر.
في بداية الأمور، تشير النتائج تحت تقييم SAR إلى أن Claude Code كان الأفضل، وحقق نتائج ممتازة تتفوق على معايير سابقة. لكن الفحص الدقيق أظهر أن هذه النتائج مبالغ فيها، حيث لا تتطابق تقييمات SAR مع قرارات القبول الفعلية.
وعند مراجعة العناصر، انخفضت الدرجات بشكل حاد. وحدد الفحص اليدوي أن الصرامة التجريبية كانت العقبة الأكبر، مع تفشي ثلاثة أنماط من الفشل (نتائج مزيفة، تجارب غير مدعومة، وعدم تطابق في الخطط والتنفيذ) تختلف بشكل كبير استنادًا إلى نوع الوكيل.
وبالرغم من التقدم الملحوظ، لم تتمكن أي من الأوراق المولّدة آليًا من تجاوز معايير القبول في مؤتمرات مرموقة. وهذا يشير إلى أننا لا يزال لدينا مسافة بعيدة عن تحقيق البحث التلقائي الحقيقي.
هل اقتربنا من تحقيق البحث التلقائي الكامل؟ اكتشافات مثيرة في عالم الذكاء الاصطناعي!
في الوقت الذي تبرز فيه أنظمة البحث التلقائي، لا تزال الجودة تتطلب دراسة دقيقة. تمتلك أداة ResearchArena القدرة على تنفيذ الدورات البحثية بشكل شبه كامل، ولكن النتائج تكشف عن تحديات كبيرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
