في عصر الذكاء الاصطناعي، أصبحت نماذج اللغات الضخمة (Large Language Models) تُستخدم بشكل يومي من قبل ملايين المستخدمين، حيث تتجاوز تكاليف توفيرها 700,000 دولار يومياً. تعكس كل عملية طلب استخدام هذه النماذج احتياجاً شديداً لقدرة الاستدلال التدريجي، مما يجعل جدولة وحدات المعالجة الرسومية (GPU) عنصراً مهماً لتقليل زمن الاستجابة والتكلفة.

تُعاني هذه النماذج من مشكلة نمو الذاكرة التلقائية، حيث تؤدي الرموز المنتجة إلى توسع ذاكرة التخزين المؤقت (KV Cache)، مما قد يتسبب في فقدان الطلبات قيد المعالجة وهدر عمليات الحساب السابقة. لمعالجة هذه المشكلة، تم صياغة استدلال النماذج كمسألة جدولة ديناميكية متعددة المراحل مع اعتبار نمو الذاكرة وقيود الذاكرة في وحدات المعالجة.

قُدِّمت نموذج ديناميكي "Fluid Model" الذي يحدد مكونات الدفعة في حالة توازن ومتطلبات الذاكرة ومنطقة الاستقرار. مستفيدين من هذا النموذج، صمم الباحثون خوارزمية "WAIT" وهي قاعدة قبول تعتمد على عتبات محددة لطول المخرجات المعروفة، وأيضًا "Nested WAIT" التي تمدد هذه القاعدة لتشمل الأطوال المجهولة عن طريق تنظيم كيفية تقدم الطلبات عبر مراحل فك الشفرة.

تشير المحاكيات التجريبية، مثل "Vidur" المصممة لنموذج "Llama-2-7B" على جهاز معالجة "A100"، إلى أن هذه السياسات توسع المجال الثابت المرصود عمليًا مقارنةً بالخوارزميات المستخدمة على نطاق واسع، مما يقلل من زمن الاستجابة، خصوصًا في ظروف التحميل العالي.

في الختام، تساهم هذه التطورات في بلوغ أهداف أكبر في تحسين استدلال نماذج اللغات الضخمة، مما يمهد الطريق لمستقبل أكثر كفاءة للتفاعل بين الإنسان والآلة.
ما رأيكم في هذه الابتكارات الحديثة من مجال الذكاء الاصطناعي؟ شاركونا في التعليقات.