في وقت تتطور فيه [أنظمة](/tag/أنظمة) [البحث](/tag/البحث) التلقائي بشكل مذهل، يظهر سؤال رئيسي: هل نحن حقًا قريبون من [تحقيق](/tag/تحقيق) [البحث الذاتي](/tag/[البحث](/tag/البحث)-الذاتي) الكامل (True Auto-[Research](/tag/research))؟

أظهرت [الدراسات الحديثة](/tag/الدراسات-الحديثة) أن [أنظمة](/tag/أنظمة) البحث، مثل ResearchArena، يمكنها إنتاج [أبحاث](/tag/أبحاث) كاملة، لكن الجودة تبقى محل تساؤل. تعتبر [ResearchArena](/tag/researcharena) إطارًا بسيطًا يمكّن العديد من [الوكلاء](/tag/الوكلاء) (Agents) مثل [Claude Code](/tag/claude-code) وCodex وKimi Code من [تنفيذ](/tag/تنفيذ) الدورات البحثية بشكل مستقل، بدءًا من الفكرة حتى [كتابة](/tag/كتابة) الورقة، تحت إشراف خفيف.

وعلى مدار 13 موضوعاً في [علوم الحاسوب](/tag/[علوم](/tag/علوم)-الحاسوب) وثلاث [تجارب](/tag/تجارب) لكل مجموعة من الوكلاء، أنتجت [ResearchArena](/tag/researcharena) 117 ورقة علمية تم تقييمها [عبر](/tag/عبر) ثلاث [آليات](/tag/آليات) مختلفة: مراجعة يدوية للورقة (SAR)، ومراجعة تستند إلى العناصر (PR)، ومراجعة شاملة من قبل البشر.

في بداية الأمور، تشير النتائج تحت [تقييم](/tag/تقييم) SAR إلى أن [Claude Code](/tag/claude-code) كان الأفضل، وحقق نتائج ممتازة تتفوق على [معايير](/tag/معايير) سابقة. لكن الفحص الدقيق أظهر أن هذه النتائج مبالغ فيها، حيث لا تتطابق [تقييمات](/tag/تقييمات) SAR مع [قرارات](/tag/قرارات) القبول الفعلية.

وعند مراجعة العناصر، انخفضت الدرجات بشكل حاد. وحدد الفحص اليدوي أن الصرامة التجريبية كانت العقبة الأكبر، مع تفشي ثلاثة أنماط من الفشل (نتائج مزيفة، [تجارب](/tag/تجارب) غير مدعومة، وعدم تطابق في الخطط والتنفيذ) تختلف بشكل كبير استنادًا إلى نوع الوكيل.

وبالرغم من التقدم الملحوظ، لم تتمكن أي من الأوراق المولّدة آليًا من تجاوز [معايير](/tag/معايير) القبول في [مؤتمرات](/tag/مؤتمرات) مرموقة. وهذا يشير إلى أننا لا يزال لدينا مسافة بعيدة عن [تحقيق](/tag/تحقيق) [البحث](/tag/البحث) التلقائي الحقيقي.