في عالم الذكاء الاصطناعي، أصبحت [تقنيات التعلم](/tag/[تقنيات](/tag/تقنيات)-[التعلم](/tag/التعلم)) المُعزز ([Reinforcement Learning](/tag/reinforcement-learning)) بمثابة حلقة وصل حيوية لتحسين [أداء](/tag/أداء) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)). حيث تتطور [أساليب](/tag/أساليب) ما بعد [التدريب](/tag/التدريب) بشكل متزايد إلى نموذجين رئيسيين: [التعلم المُعزز](/tag/[التعلم](/tag/التعلم)-المُعزز) من ردود فعل البشر ([RLHF](/tag/rlhf)) والذي يركز على [تحسين النماذج](/tag/[تحسين](/tag/تحسين)-[النماذج](/tag/النماذج)) من خلال [إشارات](/tag/إشارات) التفضيل البشرية، والتعلم المُعزز من [مكافآت](/tag/مكافآت) قابلة للتحقق ([RLVR](/tag/rlvr)) الذي يعمل في بيئات مدعومة من قبل المحققين.
ومع هيمنة [RLVR](/tag/rlvr) على مرحلة ما بعد [التدريب](/tag/التدريب) الموجهة [نحو](/tag/نحو) [التفكير](/tag/التفكير) بسبب تحقيقها لزيادة كبيرة في [الكفاءة](/tag/الكفاءة) والأداء، يأتي مشروع [GRLO](/tag/grlo) ليغير قواعد اللعبة. على سبيل المثال، من خلال استخدام [نموذج](/tag/نموذج) Qwen3-4B-Base، أظهرت [تقنية](/tag/تقنية) [GRLO](/tag/grlo) تحسناً ملحوظاً حيث ارتفعت متوسط [الأداء](/tag/الأداء) [عبر](/tag/عبر) جميع المجالات من 24.1 إلى 63.1 مع استخدام 5000 مدخل فقط و22.7 ساعة [GPU](/tag/gpu). وهذا يتطلب حوالي 46 ضعفًا أقل من [البيانات](/tag/البيانات) و68 ضعفًا أقل من القدرة الحاسوبية مقارنة بالأساليب التقليدية.
يجدر بالذكر أن النموذج الناتج ينافس حتى [النماذج](/tag/النماذج) المدربة سابقًا من Qwen، التي تطلبت تكلفة [تدريب](/tag/تدريب) أعلى بكثير. وعلى الرغم من التحسينات البسيطة التي يوفرها [RLVR](/tag/rlvr) لاحقًا في [البيئة](/tag/البيئة) المباشرة، إلا أن [GRLO](/tag/grlo) يمثل وصفة بسيطة وفعّالة لبناء [نماذج](/tag/نماذج) ما بعد [تدريب](/tag/تدريب) ذات قدرة شاملة.
إذا كنت مهتمًا بهذه التطورات، يمكنك زيارة [GitHub](https://github.com/SJY8460/GRLO) للحصول على [الكود](/tag/الكود) والبيانات المتاحة.
GRLO: ثورة في التعلم المُعزز القابل للتعميم في بيئات مفتوحة من الصفر!
تمثل تقنية GRLO خطوة فارقة في تعزيز قدرة نماذج الذكاء الاصطناعي على التعلم الفعّال من الصفر في بيئات مفتوحة. تبشر هذه التقنية بتقليل التكلفة والموارد اللازمة لتحقيق نتائج متقدمة في مهام متعددة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
