في وقت تتطور فيه [أنظمة](/tag/أنظمة) [البحث](/tag/البحث) التلقائي بشكل مذهل، يظهر سؤال رئيسي: هل نحن حقًا قريبون من [تحقيق](/tag/تحقيق) [البحث الذاتي](/tag/[البحث](/tag/البحث)-الذاتي) الكامل (True Auto-[Research](/tag/research))؟
أظهرت [الدراسات الحديثة](/tag/الدراسات-الحديثة) أن [أنظمة](/tag/أنظمة) البحث، مثل ResearchArena، يمكنها إنتاج [أبحاث](/tag/أبحاث) كاملة، لكن الجودة تبقى محل تساؤل. تعتبر [ResearchArena](/tag/researcharena) إطارًا بسيطًا يمكّن العديد من [الوكلاء](/tag/الوكلاء) (Agents) مثل [Claude Code](/tag/claude-code) وCodex وKimi Code من [تنفيذ](/tag/تنفيذ) الدورات البحثية بشكل مستقل، بدءًا من الفكرة حتى [كتابة](/tag/كتابة) الورقة، تحت إشراف خفيف.
وعلى مدار 13 موضوعاً في [علوم الحاسوب](/tag/[علوم](/tag/علوم)-الحاسوب) وثلاث [تجارب](/tag/تجارب) لكل مجموعة من الوكلاء، أنتجت [ResearchArena](/tag/researcharena) 117 ورقة علمية تم تقييمها [عبر](/tag/عبر) ثلاث [آليات](/tag/آليات) مختلفة: مراجعة يدوية للورقة (SAR)، ومراجعة تستند إلى العناصر (PR)، ومراجعة شاملة من قبل البشر.
في بداية الأمور، تشير النتائج تحت [تقييم](/tag/تقييم) SAR إلى أن [Claude Code](/tag/claude-code) كان الأفضل، وحقق نتائج ممتازة تتفوق على [معايير](/tag/معايير) سابقة. لكن الفحص الدقيق أظهر أن هذه النتائج مبالغ فيها، حيث لا تتطابق [تقييمات](/tag/تقييمات) SAR مع [قرارات](/tag/قرارات) القبول الفعلية.
وعند مراجعة العناصر، انخفضت الدرجات بشكل حاد. وحدد الفحص اليدوي أن الصرامة التجريبية كانت العقبة الأكبر، مع تفشي ثلاثة أنماط من الفشل (نتائج مزيفة، [تجارب](/tag/تجارب) غير مدعومة، وعدم تطابق في الخطط والتنفيذ) تختلف بشكل كبير استنادًا إلى نوع الوكيل.
وبالرغم من التقدم الملحوظ، لم تتمكن أي من الأوراق المولّدة آليًا من تجاوز [معايير](/tag/معايير) القبول في [مؤتمرات](/tag/مؤتمرات) مرموقة. وهذا يشير إلى أننا لا يزال لدينا مسافة بعيدة عن [تحقيق](/tag/تحقيق) [البحث](/tag/البحث) التلقائي الحقيقي.
هل اقتربنا من تحقيق البحث التلقائي الكامل؟ اكتشافات مثيرة في عالم الذكاء الاصطناعي!
في الوقت الذي تبرز فيه أنظمة البحث التلقائي، لا تزال الجودة تتطلب دراسة دقيقة. تمتلك أداة ResearchArena القدرة على تنفيذ الدورات البحثية بشكل شبه كامل، ولكن النتائج تكشف عن تحديات كبيرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
