في تطور جديد يمس عالم الذكاء الاصطناعي، تم تقديم "كومبEval"، وهو معيار ديناميكي يهدف إلى تقييم قدرات العد التوافقي (Combinatorial Counting) في نماذج اللغات الضخمة (Large Language Models). يعد هذا الإطار أداة فعالة تسمح بتحليل كيفية تعامل هذه النماذج مع مشكلات العد التوافقي بشكل دقيق.

يعمل "كومبEval" على تمثيل كل مشكلة كمواصفة Cofola المدروسة التي تشمل الكيانات، والكائنات التوافقية، وتبعيات الكائنات، والقيود. يتيح الإطار هذا توليد مشكلات عد تتسم بطبيعة اللغة الطبيعية مع تضمين إجابات موثوقة تم التحقق من صحتها بواسطة الحلول (Solver).

لكن ما يميز "كومبEval" حقًا هو دعمه للتنوع المنهجي في أنواع الكائنات، وحجم الكيانات، وعدد القيود، وعمق التفكير. من خلال دراسة 11 نموذجًا من نماذج اللغات تحت ظروف مباشرة وأخرى معززة بالشيفرة، أظهرت النتائج أن النماذج لا تزال معرضة للضعف عند التعامل مع الكائنات المرتبة، والعناصر غير القابلة للتمييز، والقيود الوصفية النسبية، وتبعيات الكائنات المتداخلة.

تستعرض التحليلات الأخطاء التي تستند إلى عدم تفسير القيود ومبادئ العد، مما يجعل من "كومبEval" مختبر تشخيصي لدراسة متى ولماذا تفشل نماذج اللغات الضخمة في التعامل مع المنطق التوافقي. ولقد تم جعل الشيفرات ومجموعات المعايير المتولدة متاحة للجمهور على الرابط التالي: [الرابط]

إذا كنت مهتمًا بمستقبل الذكاء الاصطناعي وكيف يمكن للتقييم الدقيق أن يساهم في تحسين أداء نماذج اللغة، فما رأيك في هذا التطور؟ شاركونا في التعليقات.