في عالم الذكاء الاصطناعي، برزت نماذج اللغة بالانتشار (Diffusion Language Models - DLMs) كخيار قوي وواعد يُنافس نماذج الانحدار التلقائي (Autoregressive Models). تعتمد هذه النماذج على عملية إزالة الضوضاء التكرارية لتوليد الرموز بشكل متوازي، مما يسهم في تقليل زمن الاستدلال (Inference Latency) والتقاط السياقات الثنائية الاتجاه، ويوفر تحكماً دقيقاً في عملية التوليد.

لقد شهدت نماذج اللغة بالانتشار تقدمًا ملحوظًا، حيث تحققت زيادة كبيرة في السرعة مع أداء يتساوى مع نماذج الانحدار التلقائي، مما يجعلها خياراً جذاباً للعديد من المهمات المعقدة في معالجة اللغة الطبيعية. في هذا الاستطلاع، نقدم لمحة شاملة عن الحالة الراهنة لنماذج اللغة بالانتشار، متتبعين تطورها وعلاقتها بنماذج اللغات الأخرى.

نتناول المبادئ الأساسية والنماذج الحديثة، موفرين تصنيفًا دقيقة وتحليلًا متعمقًا للتقنيات المستخدمة، من استراتيجيات ما قبل التدريب إلى الأساليب المتطورة بعد التدريب. كما نقدم مراجعة شاملة لاستراتيجيات استدلال DLM وتحسيناتها، بما في ذلك تحسين جودة التوليد وآليات التخزين المؤقت.

ومن خلال مناقشتنا، نسلط الضوء على أحدث الأساليب في توسيع تطبيقات DLMs متعددة الوسائط، ونحدد تطبيقاتها في سيناريوهات عملية متنوعة. كما نتناول التحديات والقيود التي تواجه هذه النماذج، مثل الكفاءة والتعامل مع التسلسلات الطويلة، ونرسم معالم المستقبل البحثي لضمان استمرار التقدم في هذا المجال سريع التغير.