GRLO: ثورة في التعلم المُعزز القابل للتعميم في بيئات مفتوحة من الصفر!

Q: ما هو موضوع مقال "GRLO: ثورة في التعلم المُعزز القابل للتعميم في بيئات مفتوحة من الصفر!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "GRLO: ثورة في التعلم المُعزز القابل للتعميم في بيئات مفتوحة من الصفر!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي، أصبحت تقنيات التعلم المُعزز (Reinforcement Learning) بمثابة حلقة وصل حيوية لتحسين أداء نماذج اللغات الضخمة (Large Language Models). حيث تتطور أساليب ما بعد التدريب بشكل متزايد إلى نموذجين رئيسيين: التعلم المُعزز من ردود فعل البشر (RLHF) والذي يركز على تحسين النماذج من خلال إشارات التفضيل البشرية، والتعلم المُعزز من مكافآت قابلة للتحقق (RLVR) الذي يعمل في بيئات مدعومة من قبل المحققين.

ومع هيمنة RLVR على مرحلة ما بعد التدريب الموجهة نحو التفكير بسبب تحقيقها لزيادة كبيرة في الكفاءة والأداء، يأتي مشروع GRLO ليغير قواعد اللعبة. على سبيل المثال، من خلال استخدام نموذج Qwen3-4B-Base، أظهرت تقنية GRLO تحسناً ملحوظاً حيث ارتفعت متوسط الأداء عبر جميع المجالات من 24.1 إلى 63.1 مع استخدام 5000 مدخل فقط و22.7 ساعة GPU. وهذا يتطلب حوالي 46 ضعفًا أقل من البيانات و68 ضعفًا أقل من القدرة الحاسوبية مقارنة بالأساليب التقليدية.

يجدر بالذكر أن النموذج الناتج ينافس حتى النماذج المدربة سابقًا من Qwen، التي تطلبت تكلفة تدريب أعلى بكثير. وعلى الرغم من التحسينات البسيطة التي يوفرها RLVR لاحقًا في البيئة المباشرة، إلا أن GRLO يمثل وصفة بسيطة وفعّالة لبناء نماذج ما بعد تدريب ذات قدرة شاملة.

إذا كنت مهتمًا بهذه التطورات، يمكنك زيارة GitHub للحصول على الكود والبيانات المتاحة.

GRLO: ثورة في التعلم المُعزز القابل للتعميم في بيئات مفتوحة من الصفر!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في الذكاء الاصطناعي: Salesforce تطلق Slackbot المتطور لمنافسة Microsoft وGoogle في عالم الأعمال

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!