تسعى الأبحاث في مجال التعليم الآلي إلى تحسين جودة النماذج بطرق مبتكرة، ومن بين هذه الأساليب، يبرز نموذج التعلم المعزز مع تعليقات ثنائية مرنة (RLBFF). في الأيام الماضية، تم الكشف عن هذا النموذج الجديد الذي يعالج القيود الملحوظة التي تواجه كل من التعلم المعزز مع تعليقات البشر (RLHF) والتعلم المعزز مع مكافآت قابلة للتحقق (RLVR).
يعاني نموذج RLHF من مشاكل تتعلق بالشفافية وإمكانية التلاعب في المكافآت، وهو يعتمد بشكل كبير على تقييمات البشر التي تفتقر عادة إلى معايير واضحة. في المقابل، يواجه RLVR قيودًا بسبب تركيزه على التحقق القائم على الدقة. هنا يأتي دور RLBFF، الذي يجمع بين مزايا التعليقات البشرية وموضوعية التحقق القائم على القواعد.
تعمل طريقة RLBFF على استخراج مبادئ يمكن الرد عليها بشكل ثنائي، مثل دقة المعلومات أو قابلية قراءة الشيفرات، مما يسهل تدريب نماذج المكافآت بشكل أكثر فاعلية. من خلال هذا الأسلوب، يمكن للنماذج المدربة أن تتفوق على النماذج التقليدية التي تعتمد على نماذج برادلي-تيري، محققة مستويات أداء رفيعة في تقييمات مثل RM-Bench وJudgeBench.
كما يوفر RLBFF مستخدمين إمكانية تخصيص المبادئ التي تهمهم، ليتم التركيز عليها أثناء العملية الاستنتاجية، مما يعزز من فعالية نماذج المكافآت بشكل أكبر.
على صعيد آخر، تم نشر وصفة مفتوحة المصدر بالكامل لتحسين نموذج Qwen3-32B باستخدام RLBFF ونموذج المكافأة الخاص بهم، بهدف تحقيق مستويات أداء متفوقة في العديد من المعايير القياسية.
هذا النموذج الجديد يمثل خطوة هامة نحو تحقيق توازن أفضل بين تعليقات البشر والمكافآت القابلة للتحقق، مما يبشر بآفاق جديدة في تدريب نماذج اللغات الضخمة (LLMs) وتحسين فعالية الذكاء الاصطناعي بشكل عام.
ما رأيكم في هذا التطور المذهل؟ شاركونا في التعليقات!
ثورة في التعلم المعزز: RLBFF تربط بين تعليقات البشر والمكافآت القابلة للتحقق!
كشف الباحثون عن نموذج RLBFF الذي يجمع بين مرونة تعليقات البشر ودقة التحقق القائم على القواعد. هذا التطور يعد بآفاق جديدة لتحسين نماذج المكافآت في التدريب ما بعد نماذج اللغات الضخمة (LLMs).
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
