في عالم الذكاء الاصطناعي، تعتبر تقنيات تعلم التعزيز القوي من التغذية الراجعة البشرية (RLHF) من أهم الأساليب المستخدمة في تحسين نماذج اللغة الضخمة (LLMs). لكن، ما يثير القلق هو أن معظم الطرق الحالية المتبعة ضمن هذا الأسلوب تعاني من ضعف في الأداء عندما يختلف نوع المهام المقدمة عن البيانات المستخدمة في عملية الضبط.
لذا، تطرح الأبحاث الجديدة ابتكارًا مثيرًا: تعلم التعزيز القوي المعتمد على المتانة التوزيعية (Distributionally Robust RLHF). الهدف من هذا الابتكار هو ضمان أن يحافظ النموذج المفّعل على أدائه حتى عندما تكون توزيعات المدخلات مختلفة بشكل كبير عن تلك التي تم استخدامها في مرحلة التمرين.
ولعل ما يميز هذا البحث أن مؤلفيها صاغوا شكلًا جديدًا من التحسين القوي (DRO) يرتكز على طريقتين شائعتين في ضبط نماذج اللغة، وهما:
1. تعليم التعزيز القائم على المكافآت (Reward-based RLHF)
2. التحسين المباشر لتفضيلات المكافأة (Reward-free DPO)
تم اقتراح خوارزميات مخصصة للتدريب باستخدام خوارزمية الانحدار لـ Mini-batch وكذلك تم تقديم ضمانات نظرية للالتقاء.
التقييمات التجريبية التي أجراها الباحثون أظهرت أنه بفضل هذه التدريبات القوية، يتحسن الدقة في نماذج المكافآت المتعلمة بشكل ملحوظ، خاصة في مهام مثل التفكير وحل المشكلات. وهذا يؤدي أيضًا إلى تحسين أداء طرق التحسين للسياسة في المهام ذات البيانات الموزعة بشكل مختلف (OOD).
هل تعتقدون أن هذه الابتكارات ستحسن من فعالية نماذج الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
تعلم التعزيز القوي: تحسين نماذج اللغة من خلال التغذية الراجعة البشرية
تقدم الأبحاث الأخيرة في تقنيات تعلم التعزيز القوي (Reinforcement Learning) من التغذية الراجعة البشرية (RLHF) نماذج مبتكرة لتحسين أداء نماذج اللغة. تعرفوا على كيفية تلافي ضعف الأداء عند الاختلاف الكبير في البيانات المدخلة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
