تواجه [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) ([LLMs](/tag/llms)) في العصر الحديث [تحديات](/tag/تحديات) غير مسبوقة تتعلق بتوزيع الموارد وتحسين الجدولة، خاصةً عند العمل على [أنظمة](/tag/أنظمة) تضم [نماذج](/tag/نماذج) متنوعة من حيث البنية والحجم والتخصص. تكشف [الأبحاث](/tag/الأبحاث) الأخيرة في هذا المجال عن [خصائص](/tag/خصائص) جديدة للإدارة متعددة [النماذج](/tag/النماذج) مع التركيز على تأثير مفهوم التحميل (offloading) والاستبقاء (preemption) على [الأداء](/tag/الأداء).

تشير النتائج إلى أن عمليات التحميل تؤدي إلى تدهور غير خطي في معدل [فك](/tag/فك) التشفير، وأن [النماذج](/tag/النماذج) الأصغر تكون أكثر [حساسية](/tag/حساسية) لتقليل الوجود على وحدة معالجة الرسوميات ([GPU](/tag/gpu)). بالإضافة إلى ذلك، تكشف [الدراسة](/tag/الدراسة) أن الاستبقاء يكبد [أنظمة](/tag/أنظمة) التشغيل عبئاً إضافياً، يزداد بفعل إعادة تحميل حالة النموذج بدلًا من انتقال [تخزين القيم](/tag/[تخزين](/tag/تخزين)-القيم) الرئيسية، مما يجعل تكلفة هذه [العملية](/tag/العملية) متباينة حسب النموذج والنظام المستخدم.

أيضًا، تلعب طول السلسلة (sequence length) وعرض النطاق الترددي للربط (interconnect bandwidth) دورًا كبيرًا في تضخيم حركة [البيانات](/tag/البيانات) وعدم [الكفاءة](/tag/الكفاءة) في التنفيذ. من خلال هذه النتائج، تم تحديد مجموعة من الخصائص الرئيسية التي يجب أن تأخذها [أنظمة](/tag/أنظمة) الجدولة المستقبلية بعين الاعتبار، مثل [حساسية](/tag/حساسية) التحميل الخاصة بالنماذج وخصائص أحمال العمل.

إن هذه الرؤى تقدم [توجيهات](/tag/توجيهات) [قيمة](/tag/قيمة) لتصميم [أنظمة](/tag/أنظمة) تقديم [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) القادرة على [إدارة](/tag/إدارة) أحمال العمل المتعددة [النماذج](/tag/النماذج) بشكل فعال، مع [تنفيذ](/tag/تنفيذ) [هجين](/tag/هجين) يجمع بين وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسوميات ([GPU](/tag/gpu)).