في عالم الذكاء الاصطناعي، يكون التوافق بين النماذج اللغوية الكبرى (Large Language Models - LLMs) وتفضيلات البشر محور النقاشات الحديثة. غالباً ما يتم ذلك من خلال ما يعرف بـDirect Preference Optimization (DPO). لكن، تواجه النسخة التقليدية من هذا النظام، المعروفة بإصدار Bradley-Terry، تحديات في نمذجة الانحرافات المعتادة عن التعاقب في التفضيلات البشرية.
للتغلب على هذه القيود، تم تقديم تقنية جديدة تُعرف باسم Self-Play Preference Optimization (SPPO)، التي تقوم بتحسين الاستراتيجية عبر التدريب على أزواج الفائز والخاسر التي تم إنشاؤها ذاتياً. ومع ذلك، تكشف الأبحاث الأخيرة عن حالة من عدم الاستقرار الحرج في SPPO، حيث إن الامتياز الزائد في انتصارات الأولويات قد يؤدي إلى تدهور في السياسة المستخدمة في التدريب.
لهذا السبب، تم اقتراح تقنية S-SPPO، وهي إطار عمل مزدوج الفضاء يهدف إلى تحسين الفكر السيميائي. يتكون هذا الإطار من:
1. **تعديل الإشراف** من خلال إنشاء بوابة سيميائية، تعيد ضبط أهداف الفوز نحو خط التوازن الأكثر انفتاحاً كلما زادت التداخلات السيميائية.
2. **تعديل التمثيل** عن طريق طرد موحد لمنع الانهيار الجيومتري، مما يحافظ على التنوع الكامن بين العينات المختارة والمرفوضة.
نظريًا، أظهرت الدراسات أن هذه المعايرة تحافظ على هيكل اللعبة ذات المجموع الثابت، مما يسهم في التقارب نحو توازن ناش (Nash Equilibrium). ومن الناحية التطبيقية، أثبتت S-SPPO أنها تتجاوز تدهور الأداء الملاحظ في التقنيات السابقة، حيث حققت نسبة فوز بلغت 52.19% ونسبة فوز ذات تحكم بطول النص بلغت 47.46% على AlpacaEval 2.0 باستخدام Llama-3-8B، دون الحاجة لاستخدام تفضيلات بشرية موضوعة مسبقاً أثناء التدريب.
يمكنكم الاطلاع على الشيفرة المصدرية الخاصة بالبحث عبر الرابط: [https://github.com/xiwenc1/s-sppo].
إذا كنتم مهتمين بتطورات الذكاء الاصطناعي وابتكاراته، ما رأيكم في هذا التطور الثوري؟ شاركونا في التعليقات!
استراتيجية S-SPPO: تحسين تفضيلات اللعب الذاتي المدعومة بالسياق السيميائي!
ابتكار جديد في عالم الذكاء الاصطناعي تمثل في تطوير تقنية S-SPPO التي تعزز من تفضيلات النماذج اللغوية الكبرى مع الحفاظ على تنوعها. هذه الاستراتيجية تقدم نتائج ملحوظة دون الحاجة لمزيد من التفضيلات البشرية!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
