هل حان الوقت لتغيير طريقة تدريب نماذج اللغات؟ اكتشاف تقنية جديدة تعزز الأداء!

في عالم الذكاء الاصطناعي، تتسارع وتيرة الابتكار بشكل غير مسبوق، حيث ظهرت نماذج اللغات المستندة إلى الانتشار (Diffusion Language Models) كأحد الاتجاهات الرئيسية الموازية للنماذج التلقائية (Autoregressive Models). هذه النماذج أثبتت قدرتها على التعامل مع المهام مثل التحرير ثنائي الاتجاه وتوليد النصوص غير المتتابعة.

لكن، ماذا لو استطاعت نماذج اللغات التلقائية الاستفادة من هذه التقنية الجديدة؟ هذا ما اقترحه الباحثون من خلال دراسة جديدة تسلط الضوء على تقنية REPR-ALIGN. الفكرة الرئيسية تكمن في الحفاظ على الهندسة الداخلية للتمثيلات التي تتعلمها النماذج التلقائية خلال عملية التحويل إلى نماذج الانتشار، بدلاً من إعادة تعلم التمثيلات اللغوية.

باعتبار أن الكثير من الهيكل الدلالي الذي يتم تعلمه يمكن أن ينتقل عبر أوامر التوليد، يجب فهم تدريب النماذج بالكيفية التي تعيد تعلم مسارات فك الشفرات. لتحقيق ذلك، تم تصميم هدف توافق جديد يتبنى نموذج الانتشار المقنع ليكون قادرًا على إعادة استخدام التمثيلات من نموذج تلقائي مُدرب مسبقًا بنفس الهيكل.

تتم العملية عبر محاذاة الحالات المخفية للنموذج الجديد مع النموذج القديم عند كل طبقة باستخدام تشابه الزاوية (Cosine Similarity) أثناء تحسين الهدف القياسي لإزالة الضجيج المقنعة. هذا النهج البسيط والذي لا يتطلب تعديلات هيكلية شديدة، أثبت نجاحه في تسريع التدريب بمعدل يصل إلى 4 مرات، خاصة في الحالات ذات البيانات القليلة.

تشير النتائج إلى أن التمثيلات اللغوية يمكن أن تنتقل عبر أوامر التوليد، ما يمنح أملاً جديداً في كيفية تحسين نماذج اللغات مستقبلاً. لمزيد من المعلومات، يمكنكم الاطلاع على الكود المتاح على [GitHub](https://github.com/pengzhangzhi/Open-dLLM). ما رأيكم في هذه التقنية الجديدة؟ شاركونا آراءكم في التعليقات!

هل حان الوقت لتغيير طريقة تدريب نماذج اللغات؟ اكتشاف تقنية جديدة تعزز الأداء!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

كيف تحقق الشركات النجاح عبر توسيع استخدام الذكاء الاصطناعي؟

بـاين: سوق البرمجيات كخدمة (SaaS) سيصل إلى 100 مليار دولار بفضل الذكاء الاصطناعي الفاعل!

Nvidia: كيف تثبت CUDA أنها شركة برمجيات وليست مجرد مصنع للأجهزة؟