في عالم الذكاء الاصطناعي، يواجه الباحثون تحديًا كبيرًا عند تقييم نماذج اللغة الكبيرة (Large Language Models) على معايير شاملة. تكلفة التقييم المرتفعة تجعل من الضروري إنشاء مجموعات بيانات صغيرة تمثل البيانات الشاملة، مما يمكن من التقييم الفعال مع الحفاظ على دقة التنبؤ.

حالياً، تعتمد الأساليب المستخدمة على نموذج مركزي حيث يتم اختيار عناصر التقييم بناءً على الأداء العام للنماذج الحالية، وهو ما يُظهر قيوداً كبيرة نتيجة التكاليف الباهظة وقدرتها المحدودة على التعامل مع معايير جديدة.

لكن الآن، يظهر الحل من خلال تقنية جديدة تُعرف باسم Scales++، حيث تركز هذه التقنية على الخصائص الجوهرية لعناصر المهام بدلاً من اعتمادها على أنماط الفشل للنماذج السابقة.

تقدم Scales++ منهجية جديدة لاختيار البيانات، حيث يتم التركيز على المتطلبات المعرفية لعناصر التقييم، مما يقلل تكاليف الاختيار الأولية بأكثر من 18 مرة، بينما تحقق دقة تنبؤية تنافسية.

عند تحليل البيانات، تمكنت Scales++ من التنبؤ بالدرجات الكاملة لمعايير Open LLM باستخدام نسبة 0.25% فقط من بيانات التقييم، مع متوسط خطأ مطلق يبلغ 3.2%. وبالمثل، على معيار Humanity's Last Exam، استطعنا التنبؤ بالدرجات الكاملة مع 2.9% من البيانات، مما يدل على فعالية هذه التقنية.

إن هذه المنهجية الجديدة لا تسمح فقط بتقييم أكثر كفاءة للنماذج، بل تقدم أيضًا أداءً أفضل عند البدء دون معلومات مسبقة (cold-start) وتوفر طريقة تقييم أكثر وضوحًا.

هل أنتم متحمسون لهذه الابتكارات في عالم الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!