في الأوقات الحالية، تعد النماذج اللغوية الكبيرة (Large Language Models) هي المهيمنة في حقل الذكاء الاصطناعي، وتستخدم على نطاق واسع كحكام لتقييم مخرجات النماذج. لكن، هل يمكن للنماذج اللغوية الصغيرة (Small Language Models) أن تضاهيها في الحكمة والكفاءة؟

مؤخراً، قدم فريق من الباحثين SLMJury، إطاراً مبتكراً يهدف لاختبار كفاءة النماذج اللغوية الصغيرة في التحكيم. تم اختبار 16 نموذجاً صغيراً، تتراوح عدد معلماتها بين 0.6 و14 مليار، عبر عشرة محاور تقييم. تشمل هذه المحاور مهام مغلقة ذات إجابات ثنائية، بالإضافة إلى أنظمة تقييم مفتوحة لتقدير الجودة.

اكتشف الباحثون أربعة جوانب رئيسية في هذا البحث:
1. **أثر الإفراط في التفكير**: سلوك النماذج يختلف حسب المجال؛ حيث أن معظم النماذج حققت نتائج أسرع في المهام الرياضية مقارنة بتقييمات مديدة.
2. **التعميم ضمن المجالات**: هناك تباين في دقة النتائج بين عائلات النماذج المختلفة، حيث يمكن أن يصل الفارق في الدقة إلى 40%.
3. **تقييم مغلق ومفتوح**: تحافظ النماذج على كفاءتها بناءً على نوع المهمة، مما يشير إلى ضرورة تخصيص النماذج حسب الاستخدام.
4. **بروتوكول النقاش (Reflect-Critique-Refine)**: أظهر أن النقاش بين الوكلاء يؤثر سلباً على الدقة، مما يعكس الحاجة لأساليب تقييم مأمونة ودقيقة.

من الواضح أن القدرة على إجراء تقييم موثوق لا تتطلب نماذج كبيرة أو باهظة الثمن، ورغم ذلك، لا يوجد نموذج صغير واحد يمكن أن يُعتبر الأفضل. يمكن الاطلاع على تصنيف النتائج وكيفية الوصول إلى الأكواد المتاحة عبر الروابط.

تطرح هذه النتائج تساؤلات هامة حول مستقبل استخدام نماذج الذكاء الاصطناعي الصغيرة في مجالات مثل التعليم والبحث. هل تعتقدون أن النماذج الصغيرة ستعزز التجربة البشرية في الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.