أحدثت تقنية TIAR (Trajectory-Informed Advantage Reweighting) ضجة كبيرة في مجال التعلم الآلي، خاصة مع النماذج اللغوية الكبيرة (Large Language Models) التي باتت لاعباً أساسياً في عالم الذكاء الاصطناعي. تركز هذه الورقة على استخدام التعلم بالامتناع، وهو نهج مبتكر يهدف إلى تعزيز الأمانة في النتائج التي تقدمها هذه النماذج.
في السابق، كان الاعتماد على مكافآت ثلاثية (ternary reward) لتحفيز الأمانة، لكن TIAR يتجاوز ذلك من خلال الانتقال إلى إعادة وزن المكافآت استنادًا إلى المسارات. يتضمن هذا الأسلوب الديناميكي إعادة وزن المكافأة للامتناع خلال عملية تدريب تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization - GRPO).
الهدف من هذه التقنية هو استكشاف حدود المعرفة بدلاً من التطرق حصراً إلى تحسين الأمانة، مما يسهم في تقليل حالات الهلوسة التي يمكن أن تواجهها النماذج. تعتمد TIAR على استغلال المسارات المتعددة كإشارة طبيعية للامتناع، حيث تستخدم إشارة مكافأة لاستكشاف هذه الحدود.
من خلال توضيح كيف يمكن استخدام المسارات كمؤشر على مستوى الثقة للسياسة بالنسبة للاستعلام، يمكن حساب ميزة الامتناع بشكل ديناميكي. تم استخدام معيار AbstentionBench كمعيار للتقييم، حيث تم اختبار جميع مجموعات البيانات ضد هذه الطريقة ومقارنتها بمختلف الأساليب الأخرى.
تظهر النتائج التجريبية أن TIAR حققت معدلات F1 للامتناع هي الأعلى على خمس من أصل ست فئات تقييم، متفوقةً على القاعدة الثابتة الثلاثية في 17 من أصل 31 مجموعة بيانات معيارية، مع الحفاظ الكامل على دقة القاعدة.
بهذا، تساهم TIAR بشكل ملموس في عالم التعلم بالامتناع، مما يمنح النماذج اللغوية الكبيرة القدرة على تقديم إجابات أكثر دقة وأمانة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
ثورة في التعلم: TIAR يعزز النماذج اللغوية الكبيرة عبر إعادة وزن المكافآت
تستعرض ورقة العمل تقنية TIAR في التعلم بالامتناع، التي توفر نهجاً جديداً باستخدام إعادة وزن مكافآت مستندة إلى المسارات. النتائج تظهر تحسناً ملحوظاً في دقة النماذج اللغوية الكبيرة عند تقييمها بالاعتماد على هذا الأسلوب المتطور.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
