مِرْرُور: معايير ثورية لتقييم قدرات النماذج اللغوية الضخمة على التقدير الذاتي

أعلنت الأبحاث الحديثة عن تطوير معيار يُعرف باسم مِرْرُور، والذي يهدف إلى تقييم المهارات المعرفية للذكاء الاصطناعي في نطاق اتخاذ القرارات، حيث يركز هذا المعيار على مدى قدرة النماذج اللغوية الضخمة (Large Language Models) على الاستفادة من المعرفة الذاتية (Self-Knowledge).

يتضمن معيار مِرْرُور ثمانية تجارب تغطي أربعة مستويات معرفية مختلفة، وقد تم تقييم 16 نموذجًا من 8 مختبرات علمية عبر حوالي 250,000 حالة تقييم، مستخدمين خمسة قنوات قياس سلوكية مستقلة.

تظهر النتائج عددًا من الظواهر الهامة التي تؤثر على نشر هذه النماذج في تطبيقات حقيقية:
1. **فشل التنبؤ الذاتي المركب**: أظهرت النماذج ضعفًا في تقييم أدائها الخاص في المهام متعددة المجالات، حيث تراوحت نسبة خطأ المعايرة التراكيبية من 0.500 إلى 0.943.
2. **معرفة ذاتية خاصة بالنطاق**: رغم أن النماذج أظهرت معرفة ذاتية تفوق الاحتمالات العشوائية، إلا أنها فشلت في تحويل هذه الوعي الجزئي إلى أفعال تظهر حكمة مهنية.

تستنتج الدراسة أن توفير نماذج الذكاء الاصطناعي بمعلومات ضبط دقيق لا يؤدي دائمًا إلى تحسين الأداء، وأن الاعتماد على مقاييس خارجية في التوجيه المعرفي هو الوسيلة الأكثر فعالية لضمان أنظمة ذكاء اصطناعي أكثر أمانًا.

سيتم إطلاق الكود والبيانات مع المعيار الجديد لتعزيز الأبحاث المستقبلية في مجال الذكاء الاصطناعي.

مِرْرُور: معايير ثورية لتقييم قدرات النماذج اللغوية الضخمة على التقدير الذاتي

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

هل تتعذر عليك الحصول على جهاز Mac Mini؟ تعرف على السبب وراء التأخير في التوريد!

هل يحدد OpenAI مستقبل الأمن السيبراني؟ الكشف عن أداة GPT-5.5 Cyber المبتكرة!

إيلون ماسك يكشف السر: كيف قامت xAI بتدريب Grok باستخدام نماذج OpenAI!