تواجه نماذج اللغة الكبيرة (LLMs) في العصر الحديث تحديات غير مسبوقة تتعلق بتوزيع الموارد وتحسين الجدولة، خاصةً عند العمل على أنظمة تضم نماذج متنوعة من حيث البنية والحجم والتخصص. تكشف الأبحاث الأخيرة في هذا المجال عن خصائص جديدة للإدارة متعددة النماذج مع التركيز على تأثير مفهوم التحميل (offloading) والاستبقاء (preemption) على الأداء.

تشير النتائج إلى أن عمليات التحميل تؤدي إلى تدهور غير خطي في معدل فك التشفير، وأن النماذج الأصغر تكون أكثر حساسية لتقليل الوجود على وحدة معالجة الرسوميات (GPU). بالإضافة إلى ذلك، تكشف الدراسة أن الاستبقاء يكبد أنظمة التشغيل عبئاً إضافياً، يزداد بفعل إعادة تحميل حالة النموذج بدلًا من انتقال تخزين القيم الرئيسية، مما يجعل تكلفة هذه العملية متباينة حسب النموذج والنظام المستخدم.

أيضًا، تلعب طول السلسلة (sequence length) وعرض النطاق الترددي للربط (interconnect bandwidth) دورًا كبيرًا في تضخيم حركة البيانات وعدم الكفاءة في التنفيذ. من خلال هذه النتائج، تم تحديد مجموعة من الخصائص الرئيسية التي يجب أن تأخذها أنظمة الجدولة المستقبلية بعين الاعتبار، مثل حساسية التحميل الخاصة بالنماذج وخصائص أحمال العمل.

إن هذه الرؤى تقدم توجيهات قيمة لتصميم أنظمة تقديم نماذج اللغة الكبيرة القادرة على إدارة أحمال العمل المتعددة النماذج بشكل فعال، مع تنفيذ هجين يجمع بين وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسوميات (GPU).