كيف تفوق أسلوب SFT-ثم-RL على طرق السياسة المختلطة في استدلال نماذج اللغات الضخمة!

في الآونة الأخيرة، جرت العديد من الأبحاث حول تحسين طرق استدلال نماذج اللغات الضخمة (Large Language Models) من خلال دمج إشارات التعلم الخاضع (Supervised Learning) والتعلم بالتحفيز (Reinforcement Learning). وقد أظهرت هذه الأبحاث أن أسلوب SFT-ثم-RL، والذي يعتمد على التدريب المسبق قبل الانتقال إلى التعليم بالتحفيز، لا يزال يتفوق بكثير على طرق السياسة المختلطة.

لكن لماذا يحدث هذا؟ تكشف دراسة جديدة أنه تم الاعتماد على قواعد بيانات غير صحيحة نتيجة وجود عطلين برمجيين بارزين. الأول هو عطل في مُحسّن قائم على وحدة المعالجة المركزية (CPU-offloaded optimizer) ضمن DeepSpeed، الذي يسبب تغييبًا صامتًا للدفعات الصغيرة (micro-batches) أثناء تراكم التدرجات، مما يؤثر على إطارات عمل متعددة مثل TRL وOpenRLHF وLlama-Factory. والثاني هو خطأ في تجميع الخسائر داخل OpenRLHF، حيث يتم وزن خسائر الدُفعات الصغيرة بشكل غير صحيح.

تأثير هذه الأخطاء كان ملموسًا، حيث ساهمت بشكل سالب في تقليل أداء أسلوب SFT. ومع تصحيح هذه الأخطاء، أظهر أسلوب SFT-ثم-RL تفوقًا واضحًا، حيث تمكّن من تحقيق تفوق بمقدار 3.8 نقاط على مؤشرات الرياضيات باستخدام Qwen2.5-Math-7B، و22.2 نقطة مع Llama-3.1-8B.

والأكثر إثارة، حتى النسخة المقتضبة بمقدار 50 خطوة فقط من التعلم بالتحفيز تفوق على الطرق المختلطة مع استخدام أقل للقدرة الحاسوبية (FLOPs).

تفتح هذه النتائج آفاق جديدة في عالم الذكاء الاصطناعي، مما يجعل من الضروري مراجعة المنهجيات الحالية وتوجيه الجهود نحو تحسين أداء الأساليب التقليدية، خاصة مع اعتمادها على نتائج موثوقة.

كيف تفوق أسلوب SFT-ثم-RL على طرق السياسة المختلطة في استدلال نماذج اللغات الضخمة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

هل تتعذر عليك الحصول على جهاز Mac Mini؟ تعرف على السبب وراء التأخير في التوريد!

هل يحدد OpenAI مستقبل الأمن السيبراني؟ الكشف عن أداة GPT-5.5 Cyber المبتكرة!

إيلون ماسك يكشف السر: كيف قامت xAI بتدريب Grok باستخدام نماذج OpenAI!