في وقت تتطور فيه أنظمة البحث التلقائي بشكل مذهل، يظهر سؤال رئيسي: هل نحن حقًا قريبون من تحقيق البحث الذاتي الكامل (True Auto-Research

أظهرت الدراسات الحديثة أن أنظمة البحث، مثل ResearchArena، يمكنها إنتاج أبحاث كاملة، لكن الجودة تبقى محل تساؤل. تعتبر ResearchArena إطارًا بسيطًا يمكّن العديد من الوكلاء (Agents) مثل Claude Code وCodex وKimi Code من تنفيذ الدورات البحثية بشكل مستقل، بدءًا من الفكرة حتى كتابة الورقة، تحت إشراف خفيف.

وعلى مدار 13 موضوعاً في علوم الحاسوب وثلاث تجارب لكل مجموعة من الوكلاء، أنتجت ResearchArena 117 ورقة علمية تم تقييمها عبر ثلاث آليات مختلفة: مراجعة يدوية للورقة (SAR)، ومراجعة تستند إلى العناصر (PR)، ومراجعة شاملة من قبل البشر.

في بداية الأمور، تشير النتائج تحت تقييم SAR إلى أن Claude Code كان الأفضل، وحقق نتائج ممتازة تتفوق على معايير سابقة. لكن الفحص الدقيق أظهر أن هذه النتائج مبالغ فيها، حيث لا تتطابق تقييمات SAR مع قرارات القبول الفعلية.

وعند مراجعة العناصر، انخفضت الدرجات بشكل حاد. وحدد الفحص اليدوي أن الصرامة التجريبية كانت العقبة الأكبر، مع تفشي ثلاثة أنماط من الفشل (نتائج مزيفة، تجارب غير مدعومة، وعدم تطابق في الخطط والتنفيذ) تختلف بشكل كبير استنادًا إلى نوع الوكيل.

وبالرغم من التقدم الملحوظ، لم تتمكن أي من الأوراق المولّدة آليًا من تجاوز معايير القبول في مؤتمرات مرموقة. وهذا يشير إلى أننا لا يزال لدينا مسافة بعيدة عن تحقيق البحث التلقائي الحقيقي.