في عالم الذكاء الاصطناعي، تبرز نماذج اللغة Diffusion (dLMs) كأحد التوجهات الواعدة الجديدة. توفر هذه النماذج إمكانية生成 المحتوى بشكل متوازي وغير متعاقب، لكن تواجه تحديًا في كفاءة التعلم مقارنة بالنماذج التكرارية (AR). لإصلاح هذه الفجوة، بدأ الباحثون في دراسة كيفية تحويل النماذج التكرارية المدربة مسبقًا إلى نماذج dLM فعالة.

تأتي هذه الدراسة في وقت حرج حيث تسعى الصناعة لتقليل وقت 将生成 المحتوى دون التضحية بالدقة. ومن خلال تحليل قيود أنماط الانتباه (attention patterns) والأهداف الحالية للنماذج، نصح الباحثون بمبادئ وأساليب جديدة لتحسين عملية التحويل. في البداية، تم مقارنة الأنماط المختلفة للاهتمام، وتبين أن الحفاظ على توزيع أوزان النماذج التكرارية المدربة مسبقًا هو أمر حاسم لنجاح عملية التحويل.

لذلك، تم تقديم استراتيجية تدريب مستمرة تعتمد على نمط انتباه كتلوي، مما يبقي النموذج فعّالًا عبر الكتل ويتيح نمذجة ثنائية الاتجاه داخل كل كتلة. تعتبر هذه الطريقة أكثر فعالية في الحفاظ على توزيع أوزان النماذج التكرارية المدربة مسبقًا، وتؤدي إلى تحسينات في الدقة والكفاءة.

بالإضافة إلى ذلك، لتقليل الفجوة بين التدريب والاختبار في توزيع الرموز، تم اعتماد استراتيجية أقنعة رموز تعتمد على الموقف، حيث يتلقى الرموز الأخيرة احتمالات أعلى للتخفي أثناء التدريب، مما يحاكي سلوك الاختبار بدقة أكبر.

هذه الدراسة أثمرت عن عائلة Efficient-DLM، التي تتفوق على النماذج التكرارية (AR) الحالية وكذلك نماذج dLMs، حيث حقق النموذج Efficient-DLM 8B زيادة في الدقة بمقدار +5.4% و+2.7% مع معدل إنتاج يفوق الأبعاد السابقة بمقدار 4.5x و2.7x مقارنة بالنموذجين Dream 7B وQwen3 4B على التوالي.

إذا كنت مهتمًا بكيفية تطور الذكاء الاصطناعي ومجالات التطبيقات العملية لهذه النماذج، فإن مستقبل نماذج Efficient-DLM يعد بمزيد من المفاجآت والإبداعات. ماذ تظنون بهذا التطور المذهل؟ شاركونا في التعليقات!