في خطوة مثيرة نحو تحسين كفاءة نماذج اللغة الكبيرة (LLM) في معالجة البيانات، تم تقديم تقنية جدولة جديدة تهدف إلى معالجة مشكلة الأزمان الغير متناظرة في تنفيذ الطلبات. يعتمد هذا النظام على فصل عمليات التحميل المبدئي (prefill) وفك الترميز (decode) في مسابح معالجات رسومات (GPU) مختلفة مع تلافي تأثيرات التعارض بينهما.

تظهر الدراسات أن نجاح نظام تحكم الجدولة هذا يزيد من فاعلية استخدام موارد الحوسبة بشكل أفضل، بحيث يُشير البحث إلى أن عملية التحميل المبدئي كانت تمثل نسبة تتراوح بين 2% و23% فقط من الزمن المطلوب لتحقيق أول رمز في إطار عمل يعتمد على مجموعتين من وحدات معالجة الرسوميات، لكن بعد تجربة النظام الجديد، تبين أن بإمكان الوظائف المتداخلة بين عملية التحميل وفك الترميز تقليل الزمن لحوالي 81%!

تستخدم هذه التقنية الحديثة جدولة استباقية تقوم بتقدير الوقت المطلوب لكل طلب في مرحلة التحميل المبدئي، وبالاستناد إلى ذلك، يتم توجيه الطلبات إلى عُقد فك الترميز (decode nodes) وفقًا لأفضل جدولة ممكنة، مما يُساعد على تقليل أوقات الانتظار بين الرموز ويزيد من احتمالية تحقيق الأهداف المحددة.

يُظهر تطبيق هذه التقنية على نظام vLLM زيادة كبيرة في الأداء، حيث تساهم في تحقيق أداء أفضل بموارد منخفضة التكلفة، مما يجعلها خيارًا مثاليًا للمؤسسات التي تعتمد بشكل متزايد على نماذج اللغة الكبيرة لدعم خدماتها.

ما رأيكم في هذه التقنية الحديثة؟ هل تعتقدون أنها ستحول طريقة استخدام نماذج اللغة الكبيرة؟ شاركونا بآرائكم في التعليقات!