في عالم الذكاء الاصطناعي، ظهرت الحاجة إلى تصميم أساليب فعالة لتحسين أداء نماذج اللغة الكبيرة، حيث تمثل طريقة Direct Preference Optimization (DPO) حلاً بسيطًا وفعّالًا في هذا السياق. غير أن الاعتماد على ثابت حرارة ثابت قد يؤدي إلى تدريب غير مثالي على بيانات تفضيلات متنوعة، مما يؤدي إلى مشاكل مثل الإفراط في التعلم على أمثلة سهلة وعدم التعلم الكافي من الأمثلة المهمة.

لمواجهة هذه التحديات، تقدم الدراسة الجديدة مفهوم Margin-Adaptive Direct Preference Optimization (MADPO). هذه الطريقة المبتكرة تتجاوز القيود التي واجهت الطرق السابقة مثل IPO و$eta$-DPO، حيث تعتني بشكل مباشر بتكيف هوامش التفضيل بدلاً من الاعتماد على نظم التحديث الثابتة.

تتضمن طريقة MADPO نهجًا عمليًا من خطوتين: أولاً، يتم تدريب نموذج مكافأة لتقدير هوامش التفضيل، وثانيًا يتم استخدام هذه الهوامش لتطبيق وزن متكيف على خسارة DPO لكل عينة تدريبية فردية، مما يضمن تقديم إشارات تعلم دقيقة.

كما تقدم الدراسة تحليلاً نظرياً شاملاً، يوضح أن MADPO تتسم بمنظر تحسين مستقر وقابليتها لمقاومة الأخطاء في تقدير نموذج المكافأة. تم اختبار فعالية هذه الطريقة الجديدة من خلال تجارب على مهام تلخيص باستخدام بيانات تفضيلات بشرية، ولاحظنا consistently أن MADPO تتفوق على الأسس القوية في مجموعة متنوعة من درجات الحرارة.