في عالم الذكاء الاصطناعي، يعد تقييم نماذج اللغات الضخمة (LLMs) عبر معايير شاملة أمرًا متطلبًا ويحتاج إلى وقت وجهد كبيرين. لذا، توصلت دراسة جديدة إلى حل مبتكر باستخدام إطار عمل قائم على الرسوم البيانية، حيث تُعتبر كل مجموعة من العروض كرسوم بيانية تتصل فيها النقاط إذا كانت المسافة بين تمثيلها في الفضاء أعلى من حد معين.
يقوم هذا الإطار بتطبيق خوارزميات المجموعات المستقلة العظمى (Maximum Independent Set - MIS) لاختيار مجموعة غير مكررة ومتنوعة من العروض. تم اختبار أربعة من حلّات MIS (CPLEX، GREEDY، Online-MIS، ReduMIS) عبر ستة نماذج تمثيل، مع قياسات مسافة مختلفة، وحدود متغيرة ضمن ستة تقييمات (GPQA، IFEval، MMLU-Pro، Omni-MATH) التي تغطي 66 من نماذج (LLMs).
بفضل هذه المنهجية، تم التأكيد على فرضيتنا الرئيسية: حيث توفر الاختيارات المتكررة تحت ظروف عشوائية مختلفة تصنيفات متسقة لنماذج اللغات، حتى وإن كانت تختلف عن المعايير التقليدية. أظهرت النتائج أن معامل كيندل يتجاوز 0.90 في 99.2% من الحالات، مما يعني تكرارية النتائج وموثوقيتها. كما تمكنت الاختيارات العليا من تقليل العروض بنسبة تتراوح بين 25% و48% على المتوسط.
ومع ذلك، لوحظ أن نسبة الاختلاف عن المعايير كانت منخفضة إذ ظهرت فقط في 15.95% من الحالات، مما يشير إلى أن الرسوم البيانية الكثيفة جدًا قد تمثل تحديًا. هذه النتائج تبرز أهمية تحسين اختيار العروض للحصول على تصنيفات موثوقة، مما يسهل عملية تقييم نماذج الذكاء الاصطناعي بفعالية عالية.
تعزيز كفاءة نماذج اللغات الضخمة: كيف تختار الأفضل بذكاء! 🚀
بتقديم إطار عمل قائم على الرسوم البيانية لاختيار العروض، تتيح الدراسة الجديدة تحليلًا فعالًا لنماذج اللغات الكبيرة (LLMs) دون الحاجة للوقت والموارد الهائلة. النتائج تثبت أن الاختيارات الذكية تزيد من التنوع وتقليل التكرار بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
