تقدم النماذج اللغوية الضخمة (Large Language Models) إمكانيات هائلة في مجالات متنوعة، إلا أن تحسين أدائها ليتناسب مع مهام محددة يواجه تحديات كبيرة. في محاولة لجعل قضاة النماذج اللغوية أكثر دقة، يتم استخدام تقنيات تحسين متعددة الأهداف، ولكن تحقيق النتائج المثلى لا يمر بسهولة.
إن أنظمة تحسين النماذج اللغوية تتطلب أحيانًا تحسين المدخلات عبر معايير تقييمية متعددة في نفس الوقت. تقنيات النماذج اللغوية التي تعتمد على تدرجات النصوص (Textual Gradient Methods) يمكن أن تقوم بتلقائية تحسين معايير واحدة، لكنها تنتج تعليقات باللغة الطبيعية، مما يجعل من الصعب تطبيق أدوات حل النزاعات المستخدمة في التعلم متعدد المهام.
خلال تجربتنا، قمنا باختبار خمسة أوضاع مخصصة لتفكيك محسنات التدرجات النصية، من خلال تغيير مقدار المعلومات المشتركة في الخسارة، والتدرج، ومحسنات نماذج الـ LLMs عبر المهام. المؤسف، في 6 من أصل 10 تكوينات، لم تُظهر عملية التحسين أي تحسن مقارنةً بالمدخلات الأولية. بالإضافة إلى ذلك، انخفضت خصوصية التدرج بنسبة 59% حينما تمت معالجة عدة معايير معًا.
أيضًا، أداء الجمع الساذج للتعليمات الخاصة بكل مهمة في موجه واحد تسبب في تدهور نتائج قياس Spearman بنسبة -5.3%.
تظهر هذه النتائج فشلاً مزدوجًا يُعرف على وجه التحديد: تمييع التدرجات أثناء عملية التحسين وتداخل التعليمات في مرحلة الاستدلال، مما يقيّد تصميم الفضاء المتاح لتخصيص قضاة متعدد الأهداف باستخدام التعليقات النصية.
التحديات في تحسين النماذج اللغوية: فشل نماذج متعددة الأهداف في التحسين
الإصلاح في النماذج اللغوية يعتمد على تحسين المعلومات المتعددة الأهداف، لكن الاختبارات كشفت عن مشكلات خطيرة تعيق الأداء. تعرف على فشل تقنيات تحسين الـ LLM وأثرها على النتائج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
