أعلنت الأبحاث الحديثة عن تطوير معيار يُعرف باسم مِرْرُور، والذي يهدف إلى تقييم المهارات المعرفية للذكاء الاصطناعي في نطاق اتخاذ القرارات، حيث يركز هذا المعيار على مدى قدرة النماذج اللغوية الضخمة (Large Language Models) على الاستفادة من المعرفة الذاتية (Self-Knowledge).
يتضمن معيار مِرْرُور ثمانية تجارب تغطي أربعة مستويات معرفية مختلفة، وقد تم تقييم 16 نموذجًا من 8 مختبرات علمية عبر حوالي 250,000 حالة تقييم، مستخدمين خمسة قنوات قياس سلوكية مستقلة.
تظهر النتائج عددًا من الظواهر الهامة التي تؤثر على نشر هذه النماذج في تطبيقات حقيقية:
1. **فشل التنبؤ الذاتي المركب**: أظهرت النماذج ضعفًا في تقييم أدائها الخاص في المهام متعددة المجالات، حيث تراوحت نسبة خطأ المعايرة التراكيبية من 0.500 إلى 0.943.
2. **معرفة ذاتية خاصة بالنطاق**: رغم أن النماذج أظهرت معرفة ذاتية تفوق الاحتمالات العشوائية، إلا أنها فشلت في تحويل هذه الوعي الجزئي إلى أفعال تظهر حكمة مهنية.
تستنتج الدراسة أن توفير نماذج الذكاء الاصطناعي بمعلومات ضبط دقيق لا يؤدي دائمًا إلى تحسين الأداء، وأن الاعتماد على مقاييس خارجية في التوجيه المعرفي هو الوسيلة الأكثر فعالية لضمان أنظمة ذكاء اصطناعي أكثر أمانًا.
سيتم إطلاق الكود والبيانات مع المعيار الجديد لتعزيز الأبحاث المستقبلية في مجال الذكاء الاصطناعي.
مِرْرُور: معايير ثورية لتقييم قدرات النماذج اللغوية الضخمة على التقدير الذاتي
تقدم دراسة جديدة معيار مِرْرُور، الذي يتضمن ثمانية تجارب لتقييم قدرة النماذج اللغوية الضخمة على اتخاذ قرارات أفضل باستخدام المعرفة الذاتية. النتائج تكشف عن تحديات كبيرة تعيق هذه النماذج في تحقيق أداء متسق في المهام المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
