في عالم الذكاء الاصطناعي والتعلم الآلي، يُعَد التعلم المعزز من تقييم الإنسان (RLHF) تقنية محورية تمكّن من تحسين النماذج بعد التدريب الأساسي من خلال استبدال هدف إنساني غير محدد ببروكسي تم تعلمه وقابل للتوسع. ومع ذلك، فإن عملية هذا الاستبدال تخلق سطح فشل منظم، حيث يمكن أن يؤدي التحسين إلى رفع المكافأة المتعلمة بينما تنخفض الجودة الخارجية، أو تؤثر سلبًا على كل من درجات البروكسي والحكم، أو تكشف عن عدم توافق البروكسي، أو تنتج تباينًا محددًا للحكم.
في دراسة حديثة، تم استكشاف هذه الفشلات بشكل تجريبي من خلال تنفيذ أنبوب عمل احترافي لتقنيات RLHF مثل تحسين السياسة القريبة (PPO)، وتحسين التفضيلات المباشر (DPO)، وPPO المعاقب على عدم اليقين (UP-PPO)، وما إلى ذلك. بدلاً من تقليل اختراق المكافآت إلى حدث نهائي واحد، تم تصنيف التحولات المتطابقة بين النقاط المرجعية باستخدام الاتجاهات المكافأة المتعلمة ودرجات الحكام.
عبر 61 صفًا من النقاط المرجعية و1920 تحولًا على مستوى الصف، يُظهر أن PPO العدواني يحقق أعلى معدل لاختراق المكافآت (14.45%)، بينما يُنتج UP-PPO معدلات أقل ضمن نفس النطاق العدواني (11.33-10.94%).. تشير النتائج أيضًا إلى أن النموذج اللوجستي قبل الانتقال يمكنه التنبؤ باختراق المكافآت المستقبلية بدقة تكاد تصل إلى 0.821.
الاستنتاج الرئيس من الدراسة هو منهجي: فشلات RLHF ليست فقط أمراض نموذج نهائي، ولكنها ديناميكيات تدريب يمكن تصنيفها وتوقعها جزئيًا.
عندما تفشل تقنيات التعلم المعزز من تقييم الإنسان: تصنيف ميكانيكي لاختراق المكافآت والانهيار والألعاب التقييمية
استكشاف مفصل لتحديات وفشل تقنيات التعلم المعزز من تقييم الإنسان (RLHF) في تحقيق نتائج فعالة. النتائج تكشف أن هذه الفشل ليست مجرد مشكلات نهائية، بل ديناميكيات تدريب يمكن تصنيفها وتوقعها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
