🏷️ #RLHF

3 مقال

إصلاح عيوب التقدير بأثر رجعي: تصحيح التحيز في تعلم التعزيز من خلال ردود الفعل البشرية

إصلاح عيوب التقدير بأثر رجعي: تصحيح التحيز في تعلم التعزيز من خلال ردود الفعل البشرية

أركايف للذكاءمنذ 2 يوم

عندما تفشل تقنيات التعلم المعزز من تقييم الإنسان: تصنيف ميكانيكي لاختراق المكافآت والانهيار والألعاب التقييمية

عندما تفشل تقنيات التعلم المعزز من تقييم الإنسان: تصنيف ميكانيكي لاختراق المكافآت والانهيار والألعاب التقييمية

أركايف للذكاءمنذ 28 يوم

إعادة ضبط نماذج اللغات الضخمة (LLMs) بسعة 20 مليار مع تقنية التعلم من خلال التفاعل البشري على وحدات معالجة الرسوم الرسومية الاستهلاكية بسعة 24 جيجابايت!

نماذج لغوية

إعادة ضبط نماذج اللغات الضخمة (LLMs) بسعة 20 مليار مع تقنية التعلم من خلال التفاعل البشري على وحدات معالجة الرسوم الرسومية الاستهلاكية بسعة 24 جيجابايت!

هاجينج فيسمنذ 40 شهر