في الآونة الأخيرة، جرت العديد من الأبحاث حول تحسين طرق استدلال نماذج اللغات الضخمة (Large Language Models) من خلال دمج إشارات التعلم الخاضع (Supervised Learning) والتعلم بالتحفيز (Reinforcement Learning). وقد أظهرت هذه الأبحاث أن أسلوب SFT-ثم-RL، والذي يعتمد على التدريب المسبق قبل الانتقال إلى التعليم بالتحفيز، لا يزال يتفوق بكثير على طرق السياسة المختلطة.
لكن لماذا يحدث هذا؟ تكشف دراسة جديدة أنه تم الاعتماد على قواعد بيانات غير صحيحة نتيجة وجود عطلين برمجيين بارزين. الأول هو عطل في مُحسّن قائم على وحدة المعالجة المركزية (CPU-offloaded optimizer) ضمن DeepSpeed، الذي يسبب تغييبًا صامتًا للدفعات الصغيرة (micro-batches) أثناء تراكم التدرجات، مما يؤثر على إطارات عمل متعددة مثل TRL وOpenRLHF وLlama-Factory. والثاني هو خطأ في تجميع الخسائر داخل OpenRLHF، حيث يتم وزن خسائر الدُفعات الصغيرة بشكل غير صحيح.
تأثير هذه الأخطاء كان ملموسًا، حيث ساهمت بشكل سالب في تقليل أداء أسلوب SFT. ومع تصحيح هذه الأخطاء، أظهر أسلوب SFT-ثم-RL تفوقًا واضحًا، حيث تمكّن من تحقيق تفوق بمقدار 3.8 نقاط على مؤشرات الرياضيات باستخدام Qwen2.5-Math-7B، و22.2 نقطة مع Llama-3.1-8B.
والأكثر إثارة، حتى النسخة المقتضبة بمقدار 50 خطوة فقط من التعلم بالتحفيز تفوق على الطرق المختلطة مع استخدام أقل للقدرة الحاسوبية (FLOPs).
تفتح هذه النتائج آفاق جديدة في عالم الذكاء الاصطناعي، مما يجعل من الضروري مراجعة المنهجيات الحالية وتوجيه الجهود نحو تحسين أداء الأساليب التقليدية، خاصة مع اعتمادها على نتائج موثوقة.
كيف تفوق أسلوب SFT-ثم-RL على طرق السياسة المختلطة في استدلال نماذج اللغات الضخمة!
أظهرت الدراسات الأخيرة أن الأسلوب التقليدي SFT-ثم-RL يتفوق على الطرق المختلطة في استدلال نماذج اللغات الضخمة، وذلك بسبب اكتشاف أخطاء برمجية مهمة. هذه النتائج تفتح آفاق جديدة لتطوير تقنيات الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
