في عالم الذكاء الاصطناعي، أصبحت تقنيات التعلم المُعزز (Reinforcement Learning) بمثابة حلقة وصل حيوية لتحسين أداء نماذج اللغات الضخمة (Large Language Models). حيث تتطور أساليب ما بعد التدريب بشكل متزايد إلى نموذجين رئيسيين: التعلم المُعزز من ردود فعل البشر (RLHF) والذي يركز على تحسين النماذج من خلال إشارات التفضيل البشرية، والتعلم المُعزز من مكافآت قابلة للتحقق (RLVR) الذي يعمل في بيئات مدعومة من قبل المحققين.
ومع هيمنة RLVR على مرحلة ما بعد التدريب الموجهة نحو التفكير بسبب تحقيقها لزيادة كبيرة في الكفاءة والأداء، يأتي مشروع GRLO ليغير قواعد اللعبة. على سبيل المثال، من خلال استخدام نموذج Qwen3-4B-Base، أظهرت تقنية GRLO تحسناً ملحوظاً حيث ارتفعت متوسط الأداء عبر جميع المجالات من 24.1 إلى 63.1 مع استخدام 5000 مدخل فقط و22.7 ساعة GPU. وهذا يتطلب حوالي 46 ضعفًا أقل من البيانات و68 ضعفًا أقل من القدرة الحاسوبية مقارنة بالأساليب التقليدية.
يجدر بالذكر أن النموذج الناتج ينافس حتى النماذج المدربة سابقًا من Qwen، التي تطلبت تكلفة تدريب أعلى بكثير. وعلى الرغم من التحسينات البسيطة التي يوفرها RLVR لاحقًا في البيئة المباشرة، إلا أن GRLO يمثل وصفة بسيطة وفعّالة لبناء نماذج ما بعد تدريب ذات قدرة شاملة.
إذا كنت مهتمًا بهذه التطورات، يمكنك زيارة GitHub للحصول على الكود والبيانات المتاحة.
GRLO: ثورة في التعلم المُعزز القابل للتعميم في بيئات مفتوحة من الصفر!
تمثل تقنية GRLO خطوة فارقة في تعزيز قدرة نماذج الذكاء الاصطناعي على التعلم الفعّال من الصفر في بيئات مفتوحة. تبشر هذه التقنية بتقليل التكلفة والموارد اللازمة لتحقيق نتائج متقدمة في مهام متعددة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
