في عالم الذكاء الاصطناعي، يمثل التعلم المعزز متعدد الأهداف (MORL) حجر الزاوية للتوافق بين نماذج اللغة الكبيرة (Large Language Models) وتفضيلات البشر المعقدة. إلا أن الممارسات الحالية التي تعتمد على الجمع الثابت للوزن تتجاهل ظاهرة هامة: التعلم غير المتزامن بين الأهداف. فالأبعاد التي تم تعلمها بشكل جيد تنتج بسرعة إشارات متجانسة ومنخفضة التباين، مما يعيق الاستفادة من الإشارات القيمة التي تحملها الأبعاد غير المتعلمة بشكل كافٍ.

لتصحيح هذه المشكلة، تقدم تقنية Stage-Aware Dynamic Weighting (SAW) آلية وزن ديناميكية خفيفة الوزن وغير مرتبطة بخوارزميات معينة. تعتمد SAW على معامل التباين (CV) كبديل غير مرتبط بالمقياس لقياس المعلوماتية في الوقت الحقيقي، حيث تعيد وزن مساهمة المكافأة أو الميزة لكل بعد بناءً على معلوماتيته النسبية ضمن الدفعة. بخلاف الطرق المعتمدة على التدرجات التي تحتاج إلى عدة تمريرات للأمام والخلف، تعتمد SAW فقط على إحصائيات الدفعات، مما يؤدي إلى زيادة طفيفة في المتطلبات الحاسوبية.

أظهرت التجارب التي أجريت على مهام استدعاء الأدوات وتلخيص النصوص أن SAW تعزز بشكل دائم من كفاءة التدريب والأداء النهائي ضمن كل من إطار GRPO وGDPO. هذه النتائج تثبت أن SAW هي إضافة عامة لتحسين توافق نماذج اللغة مع المكافآت المتعددة.

لمعرفة المزيد عن هذا الابتكار الرائع، يمكنك زيارة رمز المشروع على GitHub. ما رأيكم في هذه التقنية الجديدة؟ شاركونا في التعليقات!