في عالم نماذج اللغة، ظهرت نماذج تفكيك اللغة الكبيرة (Diffusion Large Language Models - dLLMs) كبديل واعد للنماذج التلقائية المتسلسلة (Auto-Regressive Models - AR)، حيث تتمتع بقدرة تعبيرية أكبر وإمكانات للتوليد المتوازي وسرعة في الاستدلال. ومع ذلك، لا تزال نماذج dLLMs مفتوحة المصدر غير ناضجة، ويعزى ذلك إلى تأخرها مقارنة بنماذج AR من حيث الكفاءة والجودة.
في دراسة جديدة، تم تحديد خاصية غير مستكشفة لنماذج dLLMs وهي *الازدواجية على مستوى الرموز* في الانتباه الذاتي ثنائي الاتجاه. حيث أظهرت النتائج أن تفاعلات الانتباه الذاتي ترتبط بشكل كبير عبر الرموز، ويمكن للتغيرات الزمنية في تمثيلات الاستفسار التنبؤ بالازدواجية في التفاعلات المتعلقة بالمفاتيح والقيم والمخرجات.
لتجاوز هذه التحديات، أطلق الباحثون نظام DARE المبتكر، الذي يتضمن آليتين مكملتين: DARE-KV، الذي يعيد استخدام تفاعلات المفاتيح والقيم (Key-Value - KV) المخزنة، وDARE-O، الذي يعيد استخدام تفاعلات المخرجات لتقليل الحسابات الزائدة مع الحفاظ على الجودة. وقد أظهر DARE تقليل زمن التأخير لكل طبقة يصل إلى 1.20x، وإعادة استخدام يصل إلى 87% من تفاعلات الانتباه مع تدني طفيف في درجات الأداء، حيث سجلت DARE-KV وDARE-O انخفاضات متوسطة بلغت 2.0% و1.2% على التوالي.
عند دمجه مع تقنيات مثل التخزين المؤقت للبادئات (Prefix Caching) وFast-dLLM، يوفر DARE فوائد إضافية دون الحاجة لإعادة التدريب. هذه النتائج تؤكد فعالية استراتيجية إعادة الاستخدام على مستوى الرموز لتحسين كفاءة نماذج dLLMs المستندة إلى التفكيك مع الحفاظ على دقة التوليد.
ابتكار ثوري في نموذج تفاعل اللغة: DARE يحسن كفاءة تفكيك النماذج بفارق كبير!
طور الباحثون نظام DARE الأكثر كفاءة في استخدام نماذج اللغة المستندة إلى التفكيك، مما يجعلها أسرع وأكثر فعالية. هذا الابتكار يعد بإحداث ثورة في كيفية معالجة الذكاء الاصطناعي للغات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
