في عصر يتزايد فيه الاعتماد على الذكاء الاصطناعي، أصبحت نماذج الذكاء الاصطناعي المتعددة الأنماط (Large Multimodal Models) محط اهتمام كبير، خاصةً في مجال التعليم. وقد أظهرت هذه النماذج أداءً استثنائيًا في مهام التفكير التي تتعلق بالمستويات التعليمية من كلاس الروضة إلى الصف الثاني عشر. ومع ذلك، تكمن أهمية نجاح هذه النماذج في قدرتها على اجتياز الاختبارات الحقيقية.
للأسف، تعاني معايير القياس الحالية من عدة عيوب، حيث تفتقر العديد منها إلى التعقيد المطلوب، مما يعيق تقديم تقييم دقيق لأداء النماذج في بيئات الاختبارات الحقيقية. لذا، قرر الباحثون إطلاق معيار جديد يسمى LiveK12Bench، والذي يهدف إلى معالجة هذه الفجوات.
يتضمن LiveK12Bench أكثر من 2000 سؤال مُعتمد من مجموعات امتحانات حقيقية في مجالات مثل الرياضيات، الفيزياء، الكيمياء، وعلم الأحياء. تم تصميم هذا المعيار ليتطور بمرور الوقت، ويحتوي على نظام تلقائي يقوم بجمع وتحليل أحدث أوراق الاختبار، مما يقلل من خطر تسرب البيانات.
تتضمن الابتكارات الأخرى في هذا المعيار نظام تقييم جديد مبتكر يعرف باسم "امتحان مزيف" (Mock Exam)، والذي يقيم قدرة النماذج على إكمال الامتحانات بشكل مستقل، مع مسارات تفكير دقيقة وفعالة.
ومع إجراء تجارب شاملة على 12 نموذجاً من نماذج الذكاء الاصطناعي المتعددة الأنماط، أظهرت النتائج أن أداء النماذج المتقدمة يتعرض للانخفاض الكبير عند تطبيق قيود واقعية للاختبار. فعلى سبيل المثال، انخفضت نتيجة نموذج GPT-5 من 79 إلى 53 من أصل 100 عند تقييم دقة وكفاءة المعالجة معًا.
تسلط هذه النتائج الضوء على ثغرات حرجة، مثل الحساسية للتصاميم البصرية المعقدة، مما يكشف عن الفجوة بين القدرات المثالية للتفكير والاستعداد التعليمي الحقيقي للنماذج. ولقد تم جعل كل من الكود وبيانات الاختبار متاحة للجمهور، مما يفتح المجال للبحث والمزيد من الابتكارات في هذا المجال المتطور.
هل تمكنت نماذج الذكاء الاصطناعي المتعددة الأنماط من اجتياز امتحانات المرحلة الثانوية؟
تقدم نماذج الذكاء الاصطناعي المتعددة الأنماط أداءً مذهلاً في مهام التفكير، لكنها تواجه تحديات كبيرة في الامتحانات الواقعية. تم تقديم LiveK12Bench كمعيار ديناميكي لتقييم قدرات هذه النماذج، وكشف نتائج التجارب عن ثغرات خطيرة في أدائها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
