في ظل الثورة التي تشهدها نماذج اللغة الضخمة (Large Language Models)، أصبحت طرق تحسين التفضيلات (Preference Optimization) تلعب دورًا حيويًا في مواءمة هذه النماذج مع تفضيلات البشر وتحسين أدائها. هنا يأتي دور طريقة (MaPPO) أو تحسين التفضيلات بالاعتماد على المعارف السابقة.

تقدم MaPPO منهجية مبتكرة للتعلم من التفضيلات من خلال دمج المعرفة السابقة حول المكافآت في الهدف الذي يتم تحسينه. تستند هذه الطريقة إلى النموذج المعتمد في تحسين التفضيلات المباشرة (Direct Preference Optimization) ومشابهاته، حيث تقوم بمعالجة تعلم التفضيلات كمسألة تقدير احتمالي أقصى (Maximum Likelihood Estimation).

من خلال دمج تقديرات المكافآت السابقة في هدف تحسين موحد، لا تعمل MaPPO على تعميم أساليب DPO فحسب، بل تعزز أيضًا مواءمتها من خلال تقليص التصنيف الثنائي المبسط للاستجابات.

تعد ما يميز MaPPO أنها لا تقدم معلمات إضافية، مما يجعلها مرنة للاستخدام في كل من الإعدادات غير المتصلة (offline) والاتصال (online). كما يمكن استخدامها كملحق لعدد من طرق DPO الأكثر شيوعًا، مثل SimPO وIPO وCPO لتحقيق تحسينات مستمرة.

أظهرت تقييمات شاملة لأحجام ونماذج مختلفة على ثلاثة معايير قياسية (MT-Bench وAlpacaEval 2.0 وArena-Hard) تحسينات ملحوظة في أداء المواءمة، دون التأثير على الكفاءة الحاسوبية.

باختصار، تمثل MaPPO خطوة متقدمة نحو تحسين تفضيلات الذكاء الاصطناعي بطرق جديدة ومبتكرة، ما يفتح آفاقًا جديدة للممارسات الذكية في المستقبل.