مع تزايد استخدام نماذج اللغة الكبيرة (Large Language Models) القابلة للتفكير، أصبح تحسين سرعة استجابة هذه النماذج ضرورة ملحة. تقليدياً، كانت الاستراتيجيات المتبعة مثل "الأول في الدخول، الأول في الخدمة" (First Come, First Serve - FCFS) تعاني من مشكلة تُعرف بـ "حجب رأس الخط" (Head-of-Line - HOL) حيث تؤدي المهام الطويلة إلى تأخير المهام الأقصر المتبقية في الطابور.
لكن، في ورقة بحثية حديثة، تم تقديم خوارزمية مبتكرة تُسمى PARS، والتي تعكس كيف يمكن للتعلم الترتيبي (Pairwise Ranking) أن يُحدث فرقاً. بدلاً من الاعتماد على الاستراتيجيات التقليدية، تعتمد PARS على اتخاذ قرارات جدولة تعتمد على طول الاستجابة المتوقعة، مما يعزز من الكفاءة ويقلل من الازدحام.
تجارب شاملة على نماذج LLM متعددة تُظهر أن PARS تفوقت على النظام الافتراضي لـ vLLM، مع تقليص زمن الاستجابة بنسبة تصل إلى 15.7 مرة. ما هو أكثر من ذلك، هذه الخوارزمية تعمل بشكل عام، مما يعني أنه يمكن استخدامها بكفاءة عبر نماذج مختلفة دون الحاجة إلى تدريب جديد محدد لكل نموذج.
باختصار، تعتبر PARS خطوة مهمة نحو تحقيق تحسينات أكبر في مجالات مثل المحادثة، الرياضيات، وتوليد الأكواد، مما يُثبت أن الابتكار في خوارزميات الجدولة يمكن أن يحدث فارقاً كبيراً في الأداء.
تحسينات رائعة في خوارزميات الذكاء الاصطناعي: تسريع استجابة نماذج اللغة الكبيرة عبر التعلم الترتيبي
تقدم دراسة حديثة خوارزمية جديدة تُدعى PARS والتي تُعدّل جدولة المهام لنماذج اللغة الكبيرة (LLMs) لتقليل زمن الاستجابة بشكل ملحوظ. تشير التجارب إلى تخفيض الزمان حتى 15.7 مرة مقارنة بالاستراتيجيات التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
