في عالم الذكاء الاصطناعي، لا تزال التحديات قائمة في كيفية توافق نماذج اللغات الضخمة (Large Language Models) مع التفضيلات البشرية. وقد جلبت تقنية التحسين المباشر للتفضيلات (Direct Preference Optimization) الأمل في تقديم حلول أكثر دقة وفاعلية. ومع ذلك، فإن الاعتماد الواسع على نموذج برادلي-تيري (Bradley-Terry) على مستوى الاستجابة قد يحد من إمكاناته الكاملة.
تستند الدراسات الأخيرة إلى إعادة تقييم الأسس النظرية لتقنية التحسين المباشر للتفضيلات، حيث تم اقتراح صيغة جديدة تُعرّف الافتراض المولّد ذاتياً قبل تطبيق نموذج برادلي-تيري. بعد إعادة صياغة وتوسيع DPO، تم تطوير نسخة جديدة أُطلق عليها اسم التحسين المباشر للتفضيلات المولدة ذاتياً (Autoregressive DPO - ADPO)، والتي تدمج النمذجة المولدة ذاتياً بشكل صريح في إطار تحسين التفضيلات.
ما يميز هذا التطور هو الطريقة الأنيقة التي تأخذ بها وظيفة الخسارة، مما يسمح بنقل عملية الجمع خارج دالة اللوج-سيغمويد. بالإضافة إلى ذلك، من خلال التحليل النظري لـ ADPO، تبرز أداتان مهمتان: قياس طول الرمز (token length) وقياس طول التعليقات (feedback length) التي يجب مراعاتها عند تصميم خوارزميات تعتمد على DPO. وهذا يفتح الباب لنقاشات جديدة حول كيفية تنفيذ خوارزميات تحسين التفضيلات بشكل أفضل وفعال في النماذج اللغوية.
ما رأيكم في هذه الحداثة في الذكاء الاصطناعي وكيف يمكن أن تغير من طريقة تعاملنا مع التكنولوجيا؟ شاركونا في التعليقات.
اكتشاف قوة التحسين المباشر للتفضيلات: كيف يمكن للذكاء الاصطناعي فهم رغباتنا أفضل؟
تمثل تقنية التحسين المباشر للتفضيلات (DPO) خطوة رائدة في مواءمة نماذج اللغات الضخمة مع تفضيلات البشر. من خلال تطوير نموذج جديد يُدعى التحسين المباشر للتفضيلات المولدة ذاتياً (ADPO)، يتم تقديم طريقة أكثر دقة لفهم رغباتنا وطموحاتنا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
