في عالمٍ يتزايد فيه الاعتماد على الذكاء الاصطناعي (AI) في مجالات متعددة، برزت الحاجة إلى تقييم فعالية هذه الأنظمة في تنفيذ المهام العلمية المعقدة. يعد التكرار الحسابي أحد أبرز التحديات التي يواجهها الباحثون لتأكيد موثوقية نتائج دراساتهم. ولتلبية هذه الحاجة، تم تقديم معيار جديد يُعرف بـ CORE-Bench (Computational Reproducibility Agent Benchmark).

يتكون هذا المعيار من 270 مهمة مستندة إلى 90 ورقة بحثية عبر ثلاث مجالات رئيسية: علوم الكمبيوتر، العلوم الاجتماعية، والطب. تم تصميم المهام بمستويات صعوبة متعددة تشمل كل من المهام المعتمدة على اللغة فقط، والمهام التي تجمع بين اللغة والرؤية.

ومن خلال نظام تقييم مبتكر، يستطيع الباحثون قياس دقة الوكلاء بنسبة سرعة وكفاءة عالية، مما يوفر أياماً من وقت التقييم. قد أثبتت الوكلاء المختبرة - بما في ذلك AutoGPT الذي يُستخدم بشكل عام وCORE-Agent المخصص للمهام - أنهما قادرتان على تقديم نتائج مختلفة، ولكن مع تحقيق الوكيل الأفضل دقة بنسبة 21% فقط على أصعب مهمة. يُظهر هذا الرقم حاجة ملحة لتحسين أداء الوكلاء العاملين في الأبحاث العلمية.

تعتبر تجربة CORE-Bench خطوة مهمة نحو تطوير وكلاء الذكاء الاصطناعي القادرين على تكرار الأبحاث الحالية، مما يفتح الباب أمام أبحاث جديدة وابتكارات قد تسهم في تعزيز الأداء العام للوكالات البحثية. من خلال هذا التقدم، نأمل أن يتم تحسين حالة التكرار في البحوث، مما يعجل بتطوير وكلاء بحث المستقبل.