في عالم نماذج اللغة، يُعتبر متوسط الخسارة (Mean Cross-Entropy) المعيار التقليدي لتقييم جودة النماذج. لكن هل تساءلت يوماً لماذا قد يفشل هذا المقياس في عكس مستوى الجودة الحقيقي للنموذج خلال مراحل التدريب؟
تظهر دراسة حديثة أن هناك حالات شائعة حيث يبقى متوسط الخسارة مرتفعًا على الرغم من أن النموذج قد أظهر أداءً جيدًا في المهام التقييمية. في حالة دراسة Qwen2.5-1.5B SFT، على سبيل المثال، لوحظ أن متوسط الخسارة يرتفع بشكل ملحوظ بعد المرحلة الأولية من التعلم، بينما تبقى دقة استرجاع الحقائق المدروسة قريبة من ذروتها.
أيضًا، في التجارب المرتبطة بتقنية التقطير العلوي (Top-K Distillation) باستخدام TinyStories، أدى تقليل K إلى تحسين متوسط الخسارة الوسيطي، رغم أن متوسط الخسارة العام تدهور. في هذه الحالة، حصل الطالب الذي يعتمد على أفضل 5 على أعلى تقييم من قِبَل نموذج اللغة، بينما كان لديه أدنى متوسط خسارة.
تظهر هذه الأمثلة أن متوسط الخسارة الوسيطي يتناسب بشكل أفضل مع أداء المهام مقارنة بمتوسط الخسارة. تحليل حركة متوسطات الخسارة خلال التدريب يُبرز كيف أن التدريب يُشكل توزيع الخسارة لكل عنصر، حيث يؤدي استخدام K أصغر إلى توزيع مُعدل يحتوي على مزيد من الكثافة عند الأطراف، مما يخفض الوسيط ويزيد المتوسط.
لذا، يُوصى بأن يتم الإبلاغ عن مجموعة صغيرة من ملخصات متوسطات الخسارة المئوية جنبًا إلى جنب مع المتوسط، واستخدام التوافق بينها كأداة لمتابعة تشكيل التوزيع، بالإضافة إلى كونها تشخيصًا منخفض التكلفة متى ما تعارضت نتائج متوسط الخسارة مع الوسيط، مما قد يساعد في توجيه الاختيارات بين النماذج.
ما رأيكم في استخدام المتوسط الوسيط بدلاً من المتوسط العام لتقييم جودة نماذج اللغة؟ شاركونا أفكاركم في التعليقات!
متى تفشل متوسطات الخسارة؟ اكتشف كيف يمكن أن يكون الوسيط دليلاً أفضل لجودة نماذج اللغة!
تكشف دراسة جديدة أن متوسط الخسارة (Mean Cross-Entropy) قد يفشل في تتبع جودة نماذج اللغة أثناء التدريب. بدلاً من ذلك، استخدم متوسط الخسارة الوسيطي (Median CE) كأداة دقيقة لتقييم الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
