تُعتبر نماذج اللغات الضخمة (Large Language Models) حجر الزاوية في العديد من المهام المتعلقة بمعالجة وإدارة المعلومات في الصناعات الحديثة. ومع تزايد الحاجة إلى معالجة هذه البيانات في دُفعات كبيرة أو حتى دون اتصال بالإنترنت، يصبح الأداء المقياس الأساسي الذي يجب التركيز عليه. "BatchLLM" هو الحل المبتكر الذي يسعى لمعالجة التحديات الحالية في هذا المجال.
تتسم العديد من المهام بوجود خاصية "مشاركة البادئات"، حيث يمكن أن تُظهر المدخلات المختلفة جزئياً بادئة شائعة. ومع ذلك، غالباً ما تتجه محركات الاستدلال المستخدمة في نماذج اللغات الضخمة إلى تحسين الطلبات المتدفقة، مما يؤدي إلى قيود في دعم المهام الكبيرة ذات خاصية المشاركة.
الحلول التقليدية تعتمد على ذاكرة التخزين المؤقت القائمة على خوارزمية LRU (Least Recently Used) لإعادة استخدام سياق KV (Key-Value) بين الطلبات. لكن هذه الأساليب قد تؤدي إلى إخلاء غير متوقع للمعلومات الهامة. وبفضل BatchLLM، تم التعرف على البادئات الشائعة بشكل عالمي، مما يؤدي إلى جدولة الطلبات المشتركة وتحقيق إعادة استخدام فعالة للسياق.
تقوم BatchLLM بإعادة ترتيب الطلبات للتركيز على تلك التي تحتوي على نسبة أكبر من الرموز القابلة للفكّ وتهدف إلى مزج الرموز المحلولة مع كتل التهيئة بشكل أفضل، مما يعزز من فعالية استخدام وحدات المعالجة الرسومية. أظهرت التقييمات الشاملة أن BatchLLM تتفوق على كل من vLLM و SGLang بمعدل يتراوح من 1.3 إلى 10.8 مرات في مجموعة من التجارب المصغرة وأعباء العمل الصناعية التقليدية عبر بيئات متعددة.
للحصول على الكود، يمكن زيارته على الرابط: [GitHub](https://github.com/microsoft/MixLLM/tree/batchllm_vllm_064). هل أنتم مستعدون لاكتشاف كيف ستغير BatchLLM طريقة معالجة المعلومات؟ شاركونا بآرائكم في التعليقات.
BatchLLM: تعزيز كفاءة نماذج اللغات الضخمة من خلال تحسين طلبات الدُفعات
تسعى BatchLLM لتحسين أداء نماذج اللغات الضخمة عبر تحقيق تكامل أفضل بين الطلبات المشتركة. الحل المقترح يعد بزيادة فعالية استخدام وحدات المعالجة الرسومية (GPU) في معالجة البيانات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
