في عصر الذكاء الاصطناعي، تُعتبر نماذج اللغة الكبيرة (Large Language Models) حجر الزاوية في تطوير التطبيقات الحديثة. لكن كيف يمكن تحسين توجيه الاستفسارات عبر هذه النماذج لتحسين التكلفة والجودة؟ في دراسة جديدة، تم تسليط الضوء على مفهوم "جدار عدم القابلية للحل" (unsolvability ceiling) في نظام توجيه نماذج اللغة المتعددة، مما يكشف عن العديد من العيوب في طرق التقييم المستخدمة.

أجريت الدراسة على نطاق واسع شملت 206,000 زوج من الاستفسارات والنماذج عبر ستة معايير (MMLU، MedQA، HumanEval، MBPP، Alpaca، ShareGPT) باستخدام عائلتي Gemma 4 وLlama 3.1. أظهرت النتائج أن جزءًا كبيرًا من حالات عدم القابلية للحل الناتجة يعود إلى عيوب نمطية في التقييم، مثل تحيز الحكام نحو الطول بدلاً من الصواب، والقص ضمن ميزانيات محددة، وعدم تطابق في تنسيقات المخرجات.

استخدم الباحثون أساليب جديدة تشمل التحقق من صحتها عبر حكام مزدوجين وتثبيت النتائج بالاعتماد على مطابقة دقيقة، مما أدى إلى تقليل حالات عدم القابلية للحل. كما قدمت الدراسة إطار عمل التفكيك لتحليل الفشل والذي يكشف عن أنماط مستمرة عبر المجالات وعائلات النماذج المختلفة.

تظهر هذه العيوب أيضًا تأثيرًا كبيرًا على إشارات تدريب الموجهين، حيث تفضل الأنظمة العادية التوقعات الفئوية الغالبة، مما يؤدي إلى تكلفة فرصة تتراوح بين 13 إلى 17 نقطة مئوية. يقدم الباحثون توصيات عملية مثل استخدام حكام مزدوجين والتحقق من المطابقة الدقيقة، بالإضافة إلى أهداف حساسة للتكاليف.

تبرز النتائج أهمية تطوير بروتوكولات تقييم موثوقة في الأنظمة المتعددة من نماذج اللغة، مما ينبه المجتمع الأكاديمي والصناعي إلى الحاجة لتحسين طرق التقييم.