في عالم النماذج اللغوية الحديثة (Language Models)، يبدو أن النشر (Diffusion) أصبح بمثابة الصيحة الجديدة، حيث تزايد الاهتمام بصورة كبيرة بالنماذج المستندة إلى النشر خلال الفترة الأخيرة. لكن الجدال كان مستمراً حول فعالية النشر المستمر (Continuous Diffusion) مقارنة بنظائره التقليدية.لتحقيق ذلك، تم إعادة تقييم نموذج Plaid، وهو نموذج لغوي مستمر قائم على الاحتمالية (Likelihood-based Continuous Diffusion Language Model)، وتطوير نموذج جديد يسمى RePlaid. هذا النموذج يتميز بتوافق هيكلي مع النماذج التقليدية، مما يجعله لأول مرة يضع قانوناً للتوسع (Scaling Law) يتساوى مع ما تقدمه النماذج التقليدية.

النموذج RePlaid يبهرنا بأدائه، حيث يقلل الفجوة الحسابية حتى 20 مرة مقارنة بالنماذج التلقائية، ويتفوق على نموذج Duo مع تقليل عدد المعلمات، كما يُظهر تفوقه على MDLM في وضعية الإفراط في التدريب.

إن الاختبارات التجريبية أظهرت أن RePlaid، على سبيل المثال، حقق أفضل أداء على مجموعة OpenWebText مسجلاً نقطة جديدة في الحد الأدنى لنسبة احتمال فقدان المعلومات (PPL)، حيث وصل إلى 22.1.

تقدم هذه النتائج دليلاً قوياً على أن النشر المستمر، عند تدريبه باستخدام أسلوب الاحتمالية، يعتبر بديلاً استثنائياً وقابلاً للتوسع بالمقارنة مع النماذج التقليدية.

كما يتم تقديم رؤى نظرية لفهم ميزات التدريب القائم على الاحتمالية، حيث أظهرت الدراسات أن تحسين جدول الضوضاء (Noise Schedule) يقلل من تباين ما يُعرف بكفاءة التعلم (ELBO's variance)، مما يؤدي إلى توزيع متساوٍ لصعوبة إزالة الضوضاء دون إعادة تهيئة خاصة لكل حالة.

بلا شك، فإن النجاح الكبير في تحسين التضمينات وتعزيز الهيكليات المهيكلة من خلال الاحتمالية قد أدت إلى تحقيق مكاسب واسعة في الكفاءة، مما يجعل النماذج المستمرة خياراً قوياً. كيف ترون هذا التطور؟ هل تعتقدون أن النشر المستمر سيغلب على النماذج التقليدية؟