أعلنت شركة Prime Intellect عن إطلاق النسخة 0.6.0 من إطار العمل الخاص بها prime-rl، الذي يعد خطوة رائدة في مجال التعلم المعزز (Reinforcement Learning) اللامتزامن، ويهدف هذا الإطار إلى تدريب نماذج Mixture-of-Experts (MoE) التي تحتوي على تريليونات المعلمات.
في أحدث تجاربها، تم تدريب النموذج GLM-5 على مهام خاصة بالاستجابة الذاتية (SWE) بإطالة تسلسل يصل إلى 131,000، مع أوقات خطوة تقل عن 5 دقائق و256 نموذج تصحيح، باستخدام 28 عقدة من نوع H200.
هذا الإنجاز الرائع يتطلب تحسينات معقدة في كل من التدريب والاستنتاج، التي تشمل استخدام FP8 inference، وتعزيز الموازاة الواسعة (Wide Expert Parallelism)، وتفكيك عملية الملء والتشفير، وإعادة تشغيل الموجه (router replay)، بالإضافة إلى الموازاة ثلاثية الأبعاد (3-D parallelism) مثل FSDP، وEP، وCP.
تعتبر هذه التحديثات خطوة فارقة نحو تحسين الأداء وكفاءة الموارد في تدريب نماذج الذكاء الاصطناعي، مما يتيح للمطورين والباحثين دفع حدود إمكانيات تعلم الآلة بشكل أكبر.
كيف ترى تأثير هذا الابتكار على مستقبل الذكاء الاصطناعي؟ شاركونا الآراء في التعليقات!
إطلاق Prime Intellect للنسخة 0.6.0 من prime-rl: ثورة في تدريب نماذج Mixture-of-Experts العملاقة!
أصدرت Prime Intellect النسخة 0.6.0 من prime-rl، الإطار المفتوح المعني بتعليم التعزيز المتزامن، الذي يتيح تدريب نماذج بمليارات المعلمات بكفاءة عالية. تعرف على تفاصيل هذا التطور الثوري في الذكاء الاصطناعي!
المصدر الأصلي:مارك تيك بوست
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
