في عصر يتزايد فيه الاعتماد على تقنيات الذكاء الاصطناعي (AI) في اتخاذ القرارات العلمية، تبرز تساؤلات حول مدى جدارة هذه الأنظمة بقدر الإمكان في استنتاج نتائجٍ علمية موثوقة. فالتطور السريع في مجال agents الذكاء الاصطناعي لا يقلل من التحديات التي تواجهها هذه الأنظمة، خاصة في المجالات الحساسة مثل الصحة.
لتقييم هذه القدرات، تم تقديم معيار جديد يُسمى SciConBench، والذي يُعتبر اختبارًا شاملاً يحتوي على 9,110 سؤالًا واستنتاجات كتبها خبراء من مراجعات منهجية. يعتمد هذا المعيار على عملية تقييم مؤتمتة تم التحقق منها من قبل الخبراء، حيث تقوم بتفكيك الاستنتاجات إلى حقائق صغيرة، وقياس دقتها وشموليتها من خلال دقة الحقائق واسترجاعها.
ومن أجل ضمان قياسات دقيقة، تم إدخال نظام تقييم خاص يُعرف بـ SciConHarness، الذي يتيح تفاعلات موجهة مع الويب لضمان عدم تسرب البيانات. وعند تقييم 8 نماذج متطورة وعميقة للبحث، أظهرت النتائج أن الجودة الواقعية للاستنتاجات لا تزال منخفضة، حيث أن أفضل الوكلاء لم يحقق سوى 0.337 في فئة الدقة الواقعية.
تظهر هذه النتائج أنه فيما تصعب البيئة النظيفة من أداء الوكلاء مقارنة بالتقييمات غير المقيدة، فإن التقديرات الحالية قد تُضخم قدرات النماذج الحقيقية في الاستنتاج. كما تم الالتفات إلى التطبيقات المُعتمدة على الذكاء الاصطناعي مثل نظرة Google AI وOpenEvidence، حيث تبين أنها غالباً ما تنتج استنتاجات غير مكتملة وأحيانًا متناقضة حتى عندما تتوفر الإجابة الصحيحة.
بالمجمل، تُظهر هذه الأبحاث أن الاستنتاج الموثوق للنتائج العلمية لا يزال تحديًا مفتوحًا، وأن التقييم في بيئات نظيفة يُعد عنصرًا أساسيًا لتقييم قدرة وكلاء الذكاء الاصطناعي في المجالات العامة.
هل بإمكان وكلاء الذكاء الاصطناعي استنتاج نتائج علمية موثوقة؟
تُظهر الأبحاث الجديدة أن قدرة وكلاء الذكاء الاصطناعي على استنتاج نتائج علمية دقيقة ما زالت ضعيفة، خاصة في المجالات الحساسة مثل الصحة. تم تطوير معيار جديد لتقييم هذه القدرات، وهو SciConBench.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
