في عالم الذكاء الاصطناعي، سيطرت النماذج الآلية التلقائية (Autoregressive Models) لفترة طويلة على ساحة نماذج اللغة الكبيرة (Large Language Models). ومع ذلك، يبرز الآن نموذج جديد يعتمد على التويض (Diffusion)، والمعروف باسم النماذج الكبيرة التكرارية المعتمدة على التويض (dLLMs). تعتمد هذه النماذج على إنشاء النصوص من خلال عمليات تنقية متكررة لمقاطع مُعتمة، مما يعطيها ميزات وإمكانات ملحوظة.

من ناحية أخرى، تعاني dLLMs من مشكلة تأخر الاستنتاج. تحاول تقنيات تسريع النماذج التقليدية، مثل التخزين المؤقت للمفاتيح والقيم (Key-Value caching)، التعامل مع ذلك، ولكنها غير متوافقة مع آلية الانتباه الثنائية الاتجاه (Bidirectional Attention Mechanism) في dLLMs. لمواجهة هذا التحدي، تأتي فكرتنا في إطار dLLM-Cache، وهو نظام تخزين مؤقت تكيّفي لا يتطلب تدريباً ويجمع بين تخزين مقاطع التوجيه على فترات طويلة مع تحديثات جزئية للاستجابات مستندة إلى تشابه الخصائص.

يسمح هذا التصميم بإعادة استخدام الحسابات الوسيطة بكفاءة دون التأثير على أداء النموذج، حيث أظهرت التجارب المكثفة على نماذج dLLM تمثيلية مثل LLaDA 8B و Dream 7B أن نظام dLLM-Cache يوفر تقليلاً بنسبة تصل إلى 9.1 مرة في عمليات النقطة العائمة (FLOPs) على LongBench-HotpotQA، مع الحفاظ على جودة المخرجات التنافسية. وبشكل ملحوظ، نجح هذا الأسلوب في تقليل زمن الاستنتاج لـ dLLM ليقترب من زمن النماذج الآلية التقليدية في العديد من الإعدادات.

لديك الآن فرصة لمشاهدة كيف يمكن لهذه التقنية أن تحدث تغييراً جذرياً في أداء نماذج اللغة. يمكنك الاطلاع على كود هذا العمل المتاح للجميع عبر الرابط: https://github.com/maomaocun/dLLM-cache.