في عالم الذكاء الاصطناعي، لا تزال التحديات قائمة في كيفية توافق نماذج اللغات الضخمة (Large Language Models) مع التفضيلات البشرية. وقد جلبت تقنية التحسين المباشر للتفضيلات (Direct Preference Optimization) الأمل في تقديم حلول أكثر دقة وفاعلية. ومع ذلك، فإن الاعتماد الواسع على نموذج برادلي-تيري (Bradley-Terry) على مستوى الاستجابة قد يحد من إمكاناته الكاملة.

تستند الدراسات الأخيرة إلى إعادة تقييم الأسس النظرية لتقنية التحسين المباشر للتفضيلات، حيث تم اقتراح صيغة جديدة تُعرّف الافتراض المولّد ذاتياً قبل تطبيق نموذج برادلي-تيري. بعد إعادة صياغة وتوسيع DPO، تم تطوير نسخة جديدة أُطلق عليها اسم التحسين المباشر للتفضيلات المولدة ذاتياً (Autoregressive DPO - ADPO)، والتي تدمج النمذجة المولدة ذاتياً بشكل صريح في إطار تحسين التفضيلات.

ما يميز هذا التطور هو الطريقة الأنيقة التي تأخذ بها وظيفة الخسارة، مما يسمح بنقل عملية الجمع خارج دالة اللوج-سيغمويد. بالإضافة إلى ذلك، من خلال التحليل النظري لـ ADPO، تبرز أداتان مهمتان: قياس طول الرمز (token length) وقياس طول التعليقات (feedback length) التي يجب مراعاتها عند تصميم خوارزميات تعتمد على DPO. وهذا يفتح الباب لنقاشات جديدة حول كيفية تنفيذ خوارزميات تحسين التفضيلات بشكل أفضل وفعال في النماذج اللغوية.

ما رأيكم في هذه الحداثة في الذكاء الاصطناعي وكيف يمكن أن تغير من طريقة تعاملنا مع التكنولوجيا؟ شاركونا في التعليقات.