مع تقدم نماذج الأساس (Foundation Models) وتحسن التسلسل الوكيل (Agent Scaffolding)، استطاعت الوكلاء الذكاء الاصطناعي إظهار كفاءات رائعة في مهام المعالجة المعقدة والطويلة الأجل، بل وتنفيذ التجارب بشكل مستقل. ومع ذلك، على الرغم من تطورهم من مساعدين بحثيين إلى وكلاء بحثيين مستقلين، لا تزال هذه الأنظمة تواجه قيوداً كبيرة فيما يتعلق بالاستجابة للظروف الميدانية، وأخلاقيات البحث، والحكم العلمي الدقيق.
لذلك، لا تزال الوكلاء في مقدمة التطور غير قادرة على استبدال الباحثين البشر بشكل كامل. لتجاوز هذه الفجوة، تم تصميم سلسلة المعايير AARR (Act As a Real Researcher) كمقياس جديد. هذه المعايير لا تركز فقط على قياس القدرات التنفيذية على مستوى عالٍ، بل تسعى لتحديد ما إذا كانت الوكلاء تستطيع تقليد الاحتراف والدقة والتفكير الدقيق الذي يتميز به الباحثون البشر في سيناريوهات بحثية دقيقة.
تتضمن هذه السلسلة معيار AARRI-Bench (Act As a Real Research Intern)، الذي يُعتبر الأول من نوعه. أجرينا تجارب واسعة على النماذج المتقدمة والأنظمة الوكيلة، وكشفت النتائج أن أفضل تكوين (Mini-SWE-Agent مع Claude Opus 4.7) حقق نسبة نجاح 68.3% فقط، وغالباً ما غفل عن تفاصيل دقيقة ولكنها حاسمة تكون واضحة للباحثين البشر الحقيقيين.
تشير نتائجنا إلى أن تطوير ذكاء اصطناعي يشبه الباحث يتطلب استكشافاً أكبر لسلوك البحث، بدلاً من الاعتماد فقط على تكوينات معقدة. لمزيد من المعلومات، يمكنكم زيارة رابط المشروع.
ثورة الذكاء الاصطناعي: معيار جديد يقيم أداء الوكلاء في أبحاث المستقبل!
تقدم المعايير الجديدة AARR لتقييم أداء الوكلاء الذكيين خطوة جديدة نحو تحسين قدراتهم البحثية. وعلى الرغم من الإنجازات، لا يزال هناك فجوات كبيرة يتعين معالجتها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
