في خطوة غير مسبوقة نحو تحسين أداء نماذج اللغة، تقدم دراسة حديثة آلية جديدة لتحويل النماذج الانحدارية (Autoregressive Language Models - ARLMs) إلى نماذج انتشار (Diffusion Language Models - DLMs). يتمثل التحدي الرئيسي الذي تواجهه هذه العملية في انتقال الأهداف التدريبية، حيث يتطلب الأمر استبدال انتباه النماذج الانحدارية التقليدية بانتباه ثنائي الاتجاه، مما يؤدي إلى تأصيل المعرفة المكتسبة في النموذج السابق بشكل غير فعال.
تقنية التقطير على السياسة (On-Policy Distillation - OPD) التي تم تقديمها في نموذج اللغة القائم على التقطير (On-Policy Diffusion Language Model - OPDLM) تعالج هذه المشكلة بشكل مبتكر. يعمل هذا النموذج من خلال السماح للنموذج الطالبي (الذي يمثله ARLM مع انتباه ثنائي الاتجاه) بإنشاء مساراته الخاصة، بينما يوفر النموذج التعليمي (النموذج الانحداري الأصلي) النتائج المستهدفة لهذه المسارات.
ما يميز OPDLM هو إلغاء عدم التطابق بين التدريب والاستدلال، مما يجعل النموذج أكثر فعالية. وقد أظهرت النتائج التجريبية أن OPDLM يتطلب بين 15 و7000 مرة أقل من رموز التدريب مقارنة بالنماذج التقليدية، مع الحفاظ على أداء قوي عبر مجموعة متنوعة من المهام.
إن التحول من النموذج الانحداري إلى النموذج الانتشاري لم يعد عملية مكلفة بفضل هذه الابتكارات، مما يجعل تعلم النماذج الجديدة أكثر سهولة وفعالية. كيف تعتقد أن هذه التقنية ستؤثر على مستقبل نماذج الذكاء الاصطناعي؟
ثورة في نماذج اللغة: كيفية تحويل النماذج الانحدارية إلى نماذج انتشار بفعالية مذهلة!
تقدم دراسة جديدة آلية مبتكرة لتحويل النماذج الانحدارية إلى نماذج انتشار، مما يقلل من تكاليف التدريب بشكل كبير. من خلال استخدام تقنية التقطير على السياسة، يتم الحفاظ على المعرفة المكتسبة من النماذج السابقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
