في عالم الذكاء الاصطناعي، يواجه الباحثون تحديًا كبيرًا عند [تقييم](/tag/تقييم) [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models)) على [معايير](/tag/معايير) شاملة. تكلفة [التقييم](/tag/التقييم) المرتفعة تجعل من الضروري إنشاء [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) صغيرة تمثل [البيانات](/tag/البيانات) الشاملة، مما يمكن من [التقييم](/tag/التقييم) الفعال مع الحفاظ على [دقة](/tag/دقة) [التنبؤ](/tag/التنبؤ).
حالياً، تعتمد الأساليب المستخدمة على [نموذج](/tag/نموذج) مركزي حيث يتم اختيار عناصر [التقييم](/tag/التقييم) بناءً على [الأداء العام](/tag/[الأداء](/tag/الأداء)-العام) للنماذج الحالية، وهو ما يُظهر قيوداً كبيرة نتيجة التكاليف الباهظة وقدرتها المحدودة على التعامل مع [معايير جديدة](/tag/[معايير](/tag/معايير)-جديدة).
لكن الآن، يظهر الحل من خلال [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُعرف باسم Scales++، حيث تركز هذه [التقنية](/tag/التقنية) على الخصائص الجوهرية لعناصر المهام بدلاً من اعتمادها على أنماط الفشل للنماذج السابقة.
تقدم Scales++ منهجية جديدة لاختيار البيانات، حيث يتم التركيز على المتطلبات المعرفية لعناصر التقييم، مما يقلل [تكاليف](/tag/تكاليف) الاختيار الأولية بأكثر من 18 مرة، بينما [تحقق](/tag/تحقق) [دقة](/tag/دقة) تنبؤية تنافسية.
عند [تحليل](/tag/تحليل) البيانات، تمكنت Scales++ من [التنبؤ](/tag/التنبؤ) بالدرجات الكاملة لمعايير [Open LLM](/tag/open-llm) باستخدام نسبة 0.25% فقط من [بيانات](/tag/بيانات) التقييم، مع متوسط [خطأ](/tag/خطأ) مطلق يبلغ 3.2%. وبالمثل، على معيار Humanity's Last Exam، استطعنا [التنبؤ](/tag/التنبؤ) بالدرجات الكاملة مع 2.9% من البيانات، مما يدل على فعالية هذه [التقنية](/tag/التقنية).
إن هذه المنهجية الجديدة لا تسمح فقط بتقييم أكثر [كفاءة](/tag/كفاءة) للنماذج، بل تقدم أيضًا أداءً أفضل عند البدء دون [معلومات](/tag/معلومات) مسبقة (cold-start) وتوفر طريقة [تقييم](/tag/تقييم) أكثر وضوحًا.
هل أنتم متحمسون لهذه [الابتكارات](/tag/الابتكارات) في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!
تحول مذهل في تقييم الذكاء الاصطناعي: تقنية Scales++ الثورية
تقدم تقنية Scales++ منهجية جديدة لاختيار عينات البيانات في تقييم نماذج الذكاء الاصطناعي، مما يقلل التكاليف بشكل كبير ويعزز الدقة. تتطلع هذه التقنية إلى إعادة تعريف كيفية تقييم النماذج مع الحفاظ على جودة التنبؤ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←# نماذج لغوية# كفاءة التقييم# تكنولوجيا الذكاء الاصطناعي# الذكاء الاصطناعي# تقييم النماذج# تقنيات جديدة
جاري تحميل التفاعلات...
