في عالم الذكاء الاصطناعي، يواجه الباحثون تحديًا كبيرًا عند [تقييم](/tag/تقييم) [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models)) على [معايير](/tag/معايير) شاملة. تكلفة [التقييم](/tag/التقييم) المرتفعة تجعل من الضروري إنشاء [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) صغيرة تمثل [البيانات](/tag/البيانات) الشاملة، مما يمكن من [التقييم](/tag/التقييم) الفعال مع الحفاظ على [دقة](/tag/دقة) [التنبؤ](/tag/التنبؤ).

حالياً، تعتمد الأساليب المستخدمة على [نموذج](/tag/نموذج) مركزي حيث يتم اختيار عناصر [التقييم](/tag/التقييم) بناءً على [الأداء العام](/tag/[الأداء](/tag/الأداء)-العام) للنماذج الحالية، وهو ما يُظهر قيوداً كبيرة نتيجة التكاليف الباهظة وقدرتها المحدودة على التعامل مع [معايير جديدة](/tag/[معايير](/tag/معايير)-جديدة).

لكن الآن، يظهر الحل من خلال [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُعرف باسم Scales++، حيث تركز هذه [التقنية](/tag/التقنية) على الخصائص الجوهرية لعناصر المهام بدلاً من اعتمادها على أنماط الفشل للنماذج السابقة.

تقدم Scales++ منهجية جديدة لاختيار البيانات، حيث يتم التركيز على المتطلبات المعرفية لعناصر التقييم، مما يقلل [تكاليف](/tag/تكاليف) الاختيار الأولية بأكثر من 18 مرة، بينما [تحقق](/tag/تحقق) [دقة](/tag/دقة) تنبؤية تنافسية.

عند [تحليل](/tag/تحليل) البيانات، تمكنت Scales++ من [التنبؤ](/tag/التنبؤ) بالدرجات الكاملة لمعايير [Open LLM](/tag/open-llm) باستخدام نسبة 0.25% فقط من [بيانات](/tag/بيانات) التقييم، مع متوسط [خطأ](/tag/خطأ) مطلق يبلغ 3.2%. وبالمثل، على معيار Humanity's Last Exam، استطعنا [التنبؤ](/tag/التنبؤ) بالدرجات الكاملة مع 2.9% من البيانات، مما يدل على فعالية هذه [التقنية](/tag/التقنية).

إن هذه المنهجية الجديدة لا تسمح فقط بتقييم أكثر [كفاءة](/tag/كفاءة) للنماذج، بل تقدم أيضًا أداءً أفضل عند البدء دون [معلومات](/tag/معلومات) مسبقة (cold-start) وتوفر طريقة [تقييم](/tag/تقييم) أكثر وضوحًا.

هل أنتم متحمسون لهذه [الابتكارات](/tag/الابتكارات) في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!