تشهد نماذج اللغة الكبيرة (LLMs) تحديات عديدة في تقييم أدائها، حيث تتعرض الأطر الحالية لأربعة إخفاقات منهجية تجعلها غير كافية بالتأكيد للأنظمة التي تعتمد على الذكاء الاصطناعي. تتراوح هذه الإخفاقات بين عدم دقة التوزيع، الزمن، النطاق، وملاءمة العمليات. ومع تعقيد أساليب التقييم القائمة على التعزيز (RLHF)، يصبح التلاعب بالمكافآت نتيجة متوقعة لتصميم التقييم بدلاً من أن يكون مجرد مشكلة تدريب غير متوقعة.

في ظل هذه التحديات، تم تقديم إطار عمل جديد يسمى Grounded Continuous Evaluation (GCE) جنبا إلى جنب مع تنفيذ مرجعي يُدعى ISOPro. يهدف ISOPro للتخلص من مشاكل التلاعب بالمكافآت من خلال استبدال نموذج المكافأة المتعلم بكاشف حتمي، مما يستبعد إمكانية التلاعب بالمكافآت في المجالات القابلة للتحقق. علاوة على ذلك، يقوم ISOPro بتحديث محولات LoRA على المعالج المركزي، مما يقلل من الحواجز المتعلقة بالأجهزة بمقدار كبير.

لقد تم اختبار ISOPro على ثلاث هياكل (Qwen 2.5 3B، Llama 3.2 3B، Gemma 2 2B) وقطاعين (جدولة، MBPP) ضد نموذج GRPO-LoRA. أظهرت النتائج أن ISOPro يسجل أكبر تحسينات في القدرات المطلقة (+25.6، +22.2، +16.0 نقطة مئوية) مقارنة بنموذج GRPO-LoRA، مما يدل على أداء أفضل في توليد عموميات تركيبية مع نسبة نجاح تصل إلى 40%.

نتيجة لذلك، يشير البحث إلى أهمية إعادة تصميم أطر التقييم لجعلها أكثر موثوقية وفعالية، مما يمهد الطريق لتحقيق تقدم هدفه تحقيق مكافآت يمكن التحقق منها. كيف يمكن لهذا الابتكار أن يُحدث ثورة في مستقبل تقييم نماذج الذكاء الاصطناعي؟