أعلنت شركة Prime Intellect عن إطلاق النسخة 0.6.0 من إطار العمل الخاص بها prime-rl، الذي يعد خطوة رائدة في مجال التعلم المعزز (Reinforcement Learning) اللامتزامن، ويهدف هذا الإطار إلى تدريب نماذج Mixture-of-Experts (MoE) التي تحتوي على تريليونات المعلمات.

في أحدث تجاربها، تم تدريب النموذج GLM-5 على مهام خاصة بالاستجابة الذاتية (SWE) بإطالة تسلسل يصل إلى 131,000، مع أوقات خطوة تقل عن 5 دقائق و256 نموذج تصحيح، باستخدام 28 عقدة من نوع H200.

هذا الإنجاز الرائع يتطلب تحسينات معقدة في كل من التدريب والاستنتاج، التي تشمل استخدام FP8 inference، وتعزيز الموازاة الواسعة (Wide Expert Parallelism)، وتفكيك عملية الملء والتشفير، وإعادة تشغيل الموجه (router replay)، بالإضافة إلى الموازاة ثلاثية الأبعاد (3-D parallelism) مثل FSDP، وEP، وCP.

تعتبر هذه التحديثات خطوة فارقة نحو تحسين الأداء وكفاءة الموارد في تدريب نماذج الذكاء الاصطناعي، مما يتيح للمطورين والباحثين دفع حدود إمكانيات تعلم الآلة بشكل أكبر.

كيف ترى تأثير هذا الابتكار على مستقبل الذكاء الاصطناعي؟ شاركونا الآراء في التعليقات!