🏷️ #RLHF
3 مقال
أبحاث
إصلاح عيوب التقدير بأثر رجعي: تصحيح التحيز في تعلم التعزيز من خلال ردود الفعل البشرية
أركايف للذكاءمنذ 2 يوم
أبحاث
عندما تفشل تقنيات التعلم المعزز من تقييم الإنسان: تصنيف ميكانيكي لاختراق المكافآت والانهيار والألعاب التقييمية
أركايف للذكاءمنذ 28 يوم
👁 1نماذج لغوية
إعادة ضبط نماذج اللغات الضخمة (LLMs) بسعة 20 مليار مع تقنية التعلم من خلال التفاعل البشري على وحدات معالجة الرسوم الرسومية الاستهلاكية بسعة 24 جيجابايت!
هاجينج فيسمنذ 40 شهر
👁 1