في عصر الذكاء الاصطناعي، أصبحت نماذج اللغات الضخمة (Large Language Models) تُستخدم بشكل يومي من قبل ملايين المستخدمين، حيث تتجاوز تكاليف توفيرها 700,000 دولار يومياً. تعكس كل عملية طلب استخدام هذه النماذج احتياجاً شديداً لقدرة الاستدلال التدريجي، مما يجعل جدولة وحدات المعالجة الرسومية (GPU) عنصراً مهماً لتقليل زمن الاستجابة والتكلفة.
تُعاني هذه النماذج من مشكلة نمو الذاكرة التلقائية، حيث تؤدي الرموز المنتجة إلى توسع ذاكرة التخزين المؤقت (KV Cache)، مما قد يتسبب في فقدان الطلبات قيد المعالجة وهدر عمليات الحساب السابقة. لمعالجة هذه المشكلة، تم صياغة استدلال النماذج كمسألة جدولة ديناميكية متعددة المراحل مع اعتبار نمو الذاكرة وقيود الذاكرة في وحدات المعالجة.
قُدِّمت نموذج ديناميكي "Fluid Model" الذي يحدد مكونات الدفعة في حالة توازن ومتطلبات الذاكرة ومنطقة الاستقرار. مستفيدين من هذا النموذج، صمم الباحثون خوارزمية "WAIT" وهي قاعدة قبول تعتمد على عتبات محددة لطول المخرجات المعروفة، وأيضًا "Nested WAIT" التي تمدد هذه القاعدة لتشمل الأطوال المجهولة عن طريق تنظيم كيفية تقدم الطلبات عبر مراحل فك الشفرة.
تشير المحاكيات التجريبية، مثل "Vidur" المصممة لنموذج "Llama-2-7B" على جهاز معالجة "A100"، إلى أن هذه السياسات توسع المجال الثابت المرصود عمليًا مقارنةً بالخوارزميات المستخدمة على نطاق واسع، مما يقلل من زمن الاستجابة، خصوصًا في ظروف التحميل العالي.
في الختام، تساهم هذه التطورات في بلوغ أهداف أكبر في تحسين استدلال نماذج اللغات الضخمة، مما يمهد الطريق لمستقبل أكثر كفاءة للتفاعل بين الإنسان والآلة.
ما رأيكم في هذه الابتكارات الحديثة من مجال الذكاء الاصطناعي؟ شاركونا في التعليقات.
تحسين استدلال نماذج اللغات الضخمة: جدولة ديناميكية فعالة تحت قيود الذاكرة
تعزيز تجربة استخدام نماذج اللغات الضخمة (Large Language Models) يتطلب معالجة فعّالة لطريقة جدولة الاستدلال. تعرفوا على كيفية تحقيق هذا الهدف من خلال نماذج جديدة للجدولة الديناميكية التي تتجاوز تحديات نمو الذاكرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
