تسعى [الأبحاث](/tag/الأبحاث) في مجال [التعليم](/tag/التعليم) الآلي إلى [تحسين](/tag/تحسين) جودة [النماذج](/tag/النماذج) بطرق مبتكرة، ومن بين هذه الأساليب، يبرز [نموذج التعلم](/tag/[نموذج](/tag/نموذج)-[التعلم](/tag/التعلم)) المعزز مع تعليقات ثنائية مرنة ([RLBFF](/tag/rlbff)). في الأيام الماضية، تم الكشف عن هذا النموذج الجديد الذي يعالج [القيود](/tag/القيود) الملحوظة التي تواجه كل من [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) مع تعليقات البشر ([RLHF](/tag/rlhf)) والتعلم المعزز مع [مكافآت](/tag/مكافآت) قابلة للتحقق ([RLVR](/tag/rlvr)).
يعاني [نموذج RLHF](/tag/[نموذج](/tag/نموذج)-rlhf) من مشاكل تتعلق بالشفافية وإمكانية التلاعب في المكافآت، وهو يعتمد بشكل كبير على [تقييمات](/tag/تقييمات) البشر التي تفتقر عادة إلى [معايير](/tag/معايير) واضحة. في المقابل، يواجه [RLVR](/tag/rlvr) قيودًا بسبب تركيزه على [التحقق](/tag/التحقق) القائم على [الدقة](/tag/الدقة). هنا يأتي دور RLBFF، الذي يجمع بين مزايا [التعليقات](/tag/التعليقات) البشرية وموضوعية [التحقق](/tag/التحقق) القائم على القواعد.
تعمل طريقة [RLBFF](/tag/rlbff) على استخراج مبادئ يمكن الرد عليها بشكل ثنائي، مثل [دقة المعلومات](/tag/[دقة](/tag/دقة)-[المعلومات](/tag/المعلومات)) أو قابلية قراءة الشيفرات، مما يسهل [تدريب](/tag/تدريب) [نماذج المكافآت](/tag/[نماذج](/tag/نماذج)-[المكافآت](/tag/المكافآت)) بشكل أكثر فاعلية. من خلال هذا الأسلوب، يمكن للنماذج المدربة أن تتفوق على [النماذج](/tag/النماذج) التقليدية التي تعتمد على [نماذج](/tag/نماذج) برادلي-تيري، محققة مستويات [أداء](/tag/أداء) رفيعة في [تقييمات](/tag/تقييمات) مثل RM-Bench وJudgeBench.
كما يوفر [RLBFF](/tag/rlbff) مستخدمين إمكانية [تخصيص](/tag/تخصيص) المبادئ التي تهمهم، ليتم التركيز عليها أثناء [العملية](/tag/العملية) الاستنتاجية، مما يعزز من فعالية [نماذج المكافآت](/tag/[نماذج](/tag/نماذج)-[المكافآت](/tag/المكافآت)) بشكل أكبر.
على صعيد آخر، تم [نشر](/tag/نشر) وصفة مفتوحة المصدر بالكامل لتحسين [نموذج](/tag/نموذج) Qwen3-32B باستخدام [RLBFF](/tag/rlbff) ونموذج المكافأة الخاص بهم، بهدف [تحقيق](/tag/تحقيق) مستويات [أداء](/tag/أداء) متفوقة في العديد من [المعايير](/tag/المعايير) القياسية.
هذا النموذج الجديد يمثل خطوة هامة [نحو](/tag/نحو) [تحقيق](/tag/تحقيق) توازن أفضل بين تعليقات البشر والمكافآت القابلة للتحقق، مما يبشر بآفاق جديدة في [تدريب](/tag/تدريب) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLMs](/tag/llms)) وتحسين فعالية [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) بشكل عام.
ما رأيكم في هذا التطور المذهل؟ شاركونا في [التعليقات](/tag/التعليقات)!
ثورة في التعلم المعزز: RLBFF تربط بين تعليقات البشر والمكافآت القابلة للتحقق!
كشف الباحثون عن نموذج RLBFF الذي يجمع بين مرونة تعليقات البشر ودقة التحقق القائم على القواعد. هذا التطور يعد بآفاق جديدة لتحسين نماذج المكافآت في التدريب ما بعد نماذج اللغات الضخمة (LLMs).
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
