في عالم الذكاء الاصطناعي، تبرز الحاجة إلى تحسين كيفية تدريب نماذج اللغة (Language Models) لتكون فعالة وواقعية. في هذا السياق، تمثل طريقة التعلم المعزز بمكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards) تطورًا ملحوظًا، حيث تستهدف مهامًا محددة مثل توليد الأكواد والتفكير الرياضي.
ومع ذلك، تعاني الطرق الحالية من نقص في التركيز على الجوانب الذاتية وغير القابلة للتحقق من المخرجات الإنسانية، بما في ذلك الأسلوب أو البنية. هذه القيود أدت إلى مشكلات معروفة مثل انهيار التنوع والأجوبة غير الطبيعية، إضافةً إلى القدرة على استغلال المكافآت.
لذلك، تم اقتراح إطار عمل يتضمن مولدًا ومميزًا عدائيًا، يتم فيه تعزيز المكافآت القابلة للتحقق من خلال إشارة مستفادة من العروض البشرية. يتم تدريب نموذج المولد باستخدام التعلم المعزز لزيادة دقة المهام، بالإضافة إلى مكافأة عدائية مستمدة من المميز. يتعلم المميز، الذي يتم تدريبه جنبًا إلى جنب مع سياسة المولد، تمييز المخرجات المكتوبة يدويًا عن تلك التي يقوم النموذج بإنشائها.
هذا النظام يُوفر تغذية راجعة حول الجوانب التي يصعب تحديدها كمكافآت عددية، مما يساعد على تحسين الجودة بشكل ملحوظ في مجالات متنوعة مثل تصحيح الأخطاء وتوليد القصص. لقد أظهرت النتائج أن استخدام هذه الطريقة يحسن الخصائص غير القابلة للتحقق، بينما يضمن الحفاظ على مكاسب الدقة. في تصحيح الأخطاء، حقق نظامنا حلولًا بنقاط تحرير أقل بكثير مقارنةً بالأساليب التقليدية، بينما حافظ على الأداء العالي. وفي توليد القصص، حقق النظام معدل انتصارات أعلى مع إنتاج قصص أكثر تنوعًا وقربًا للكتابة البشرية.
تتيح لنا هذه النتائج ربط التعلم المعزز (RL) مع التعلم من التفضيلات (SFT)، مما يوفر طريقًا قابلًا للتطوير نحو تحسين الخصائص القابلة للتحقق وغير القابلة للتحقق على حد سواء.
التدريب الفعال لنماذج اللغة: مكافآت قابلة للتحقق وعروض بشرية
تقدم الدراسة الجديدة طريقة مبتكرة لتدريب نماذج اللغة باستخدام مكافآت قابلة للتحقق من خلال تعزيز التعلم الآلي بعروض بشرية. النتائج تشير إلى تحسين ملحوظ في جودة المخرجات وفعالية الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
