تظل عملية تدريب نماذج اللغة الكبيرة (LLMs) فعالة ومستقرة واحدة من أكبر التحديات في أنظمة التعلم الآلي الحديثة. للتغلب على هذه المشكلة، تم تقديم طريقة إعادة تنظيم المعادلات المتعامدة (Reparameterized Orthogonal Equivalence Training) والمعروفة اختصارًا بـ POET، كإطار يحافظ على الطيف أثناء تحسين كل مصفوفة أوزان من خلال التحويلات المتعامدة.

رغم أن POET يوفر استقرارًا قويًا أثناء التدريب، فإن تطبيقه الأصلي يعاني من استهلاك مرتفع للذاكرة وأعباء حسابية كبيرة نتيجة العمليات الحسابية المعقدة لمصفوفات الأوزان. ولذلك، تم تقديم POET-X كنسخة قابلة للتكيف وفعالة من حيث استهلاك الذاكرة.

تعمل POET-X على إجراء التحويلات المتعامدة بتكاليف حسابية منخفضة بشكل ملحوظ، مما يحافظ على فوائد الاستقرار والتعميم التي حققتها POET، ولكن مع تحقيق تحسينات كبيرة في سرعة الأداء وكفاءة الذاكرة. في تجاربنا، تمكنت POET-X من تمكين التدريب المسبق لنماذج لغة تحتوي على مليارات المعلمات باستخدام وحدة معالجة الرسوميات Nvidia H100، بينما تصطدم المحسنات القياسية مثل AdamW بنقص الذاكرة تحت نفس الظروف.

إن تقدم POET-X يمثل خطوة تمهيدية نحو تطوير نماذج ذكاء اصطناعي أكثر قوة وكفاءة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!