تُعتبر نماذج المكافآت (Reward Models) حجر الزاوية في توجيه نماذج اللغات الضخمة (Large Language Models) لتتماشى مع تفضيلات البشر. حتى الآن، اعتمدت الأساليب السائدة على نموذجين رئيسيين: نماذج التفضيل التمييزية (Scalar Discriminative Preference Models) التي تتمتع بكفاءة عالية لكنها تفتقر إلى التفسير، ونماذج الحكم التوليدية (Generative Judging Models) التي تقدم استدلالات غنية ولكن بتكلفة حسابية مرتفعة.
في إطار جديد وديناميكي يُدعى CAMEL، يتناول الباحثون هذه التحديات من خلال استغلال العلاقة القوية بين هوامش احتمالات الحكم ودقة التنبؤ. يمتاز CAMEL بإطار عمل موجه بالثقة، حيث يقوم باتخاذ قرار تفضيل عالمي باستخدام رمز واحد، ومن ثم يستدعي آلية التفكير المدروس فقط في الحالات التي تعاني من عدم اليقين.
تدريب CAMEL يعتمد على مفهوم التعلم المعزز (Reinforcement Learning) مع تعزيز سابق مخالف (Counterfactual Prefix Augmentation)، مما يعزز فعالية التصحيح الذاتي ويعطي النموذج فرصة للتعرض لمجموعة متنوعة من أحكام البداية، مما يدفعه للتطوير الجاد.
وقد أثبت CAMEL تفوقه في الأداء، حيث حقق دقة 82.9% في ثلاثة معايير معروفة لنماذج المكافآت، متفوقًا على أفضل نموذج سابق بنسبة 3.2%، وعلى نماذج ذات 70 مليار معلمة باستخدام 14 مليار معلمة فقط، مما أسس لمستوى جديد من الكفاءة والدقة.
إن إمكانيات CAMEL بفتح آفاق جديدة لمستقبل الذكاء الاصطناعي تضعنا في موضع تفكير عميق حول كيفية تحسين نماذج التعلم لتحسين التفاعلات البشرية.
CAMEL: إطار ثوري لتعزيز دقة نماذج المكافآت في الذكاء الاصطناعي!
يقدم إطار CAMEL خطوة جديدة في تحسين نماذج المكافآت من خلال أسلوب يعزز دقة التنبؤات مع تقليل تكاليف الحساب. يدعو المجتمع التقني لاستكشاف إمكانيات الذكاء الاصطناعي الجديدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
