تعد نماذج اللغات الكبيرة المعتمدة على الانتشار (D-LLMs) واحدة من أبرز الابتكارات في مجال الذكاء الاصطناعي التوليدي، حيث تقدم إمكانية توليد رموز (tokens) بشكل متوازي، مما يتيح مزايا كبيرة في معدل الإنتاجية واستخدام وحدات المعالجة الرسومية (GPU) بشكل أفضل مقارنة بالنماذج التقليدية المستندة إلى التنبؤ الذاتي (autoregressive).

ومع ذلك، يُواجه هذا النوع من النماذج تحديًا كبيرًا يتمثل في ضرورة تحديد طول الاستجابة بشكل ثابت قبل البدء في عملية التوليد. هذا القيد المعماري يفرض توازنًا صعبًا؛ حيث يؤدي الطول الزائد للاستجابة إلى إهدار الموارد الحاسوبية في رموز padding التي لا تحمل أي معنى، بينما يؤدي الطول القليل إلى تقصير النتائج، مما يتطلب إعادة حساب مكلفة تؤدي إلى ارتفاع غير متوقع في زمن الاستجابة.

للتعامل مع هذا التحدي، تم تقديم إطار عمل مبتكر يُدعى Predict-then-Diffuse، الذي يعد بسيطًا وغير معتمد على نماذج محددة. يعتمد هذا الإطار على تقدير طول الاستجابة وتكييفه لكل استفسار يدخل النظام. في قلب هذا النظام توجد أداة تسمى Adaptive Response Length Predictor (AdaRLP)، التي تقوم بتقدير الطول الأمثل للاستجابة بناءً على الاستفسار المعطى.

ولضمان عدم تقليل طول الاستجابة بشكل مفرط مما يؤدي إلى الحاجة لإعادة التنفيذ بتقدير أعلى، يتم إدخال آلية أمان مدفوعة بالبيانات تقوم بزيادة بسيطة في الطول المتوقع. من خلال هذا النهج، يمكن لنظام Predict-then-Diffuse تجنب هدر الموارد في رموز padding، مع الحفاظ على جودة المخرج النهائي.

أظهرت التجارب التي أجريت على مجموعات بيانات متعددة أن هذا النظام يقلل بشكل كبير من تكاليف الحوسبة (FLOP) مقارنةً بطريقة الاستدلال التقليدية لنماذج D-LLM، في حين أنه يظل قويًا أمام توزيعات البيانات المتحيزة.

هذا الابتكار يمثل خطوةً هامةً نحو تحسين كفاءة نماذج الذكاء الاصطناعي وتوسيع نطاق استخدامها في التطبيقات الواقعية. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.