في عالم نماذج اللغات الضخمة (Large Language Models)، تواجه الأنظمة تحديًا حقيقيًا يتعلق بإدارة الموارد. حيث تتزايد الحاجة إلى الذاكرة خلال كل طلب حيث تتسع ذاكرة التخزين المؤقت (cache) استجابة لتوليد كل رمز. في ظل وجود عدد كبير من الطلبات المتزامنة، ترتفع بالتالي استخدامات الذاكرة مخترقة الحدود المسموح بها، مما يؤدي إلى ضغط مستمر على سعة النظام.
تتجلى هذه المشكلة بشكل واضح عندما تتجاوز الأنظمة سعة الذاكرة المتاحة، مما يضطرها إلى إخلاء الطلبات النشطة وتجاهل الحالة المخزنة، مما يؤدي إلى إضاعة الموارد الحاسوبية وتقليل الإنتاجية.
لقد تم تطوير نموذج ديناميكي زمني منفصل لفهم عملية استنتاج النماذج اللغوية في ظل قيود الذاكرة واكتشاف كيفية التعرف على طلبات القبول، ونمو الذاكرة، وآلية الإخلاء خلال عمليات التحميل المستمر.
في ظروف حمل الإدخال المشبع، يمكن أن تستقبل الأنظمة نقاط توازن دون أي إخلاء، ولكنها قد تدخل أيضًا في دورات حدية تتسبب في عمليات إخلاء.
وبالنسبة لعمليات العمل المتجانسة، أثبتت التجارب أن التوازن الخالي من الإخلاء غير مستقر، مما يعني أن النظام يقع في حالة دورة حدية سيئة، مما يتسبب في فقدان الإنتاجية بنسبة تصل إلى 50%. بينما في حالات العمل غير المتجانسة، تم تحديد معايير الاستقرار ويوضح كيفية تعميم آليات البقاء لأكثر من فئة.
هذه النتائج توفر رؤى عميقة حول كيفية تأثير تباين أحمال العمل على إكمال المهام وتساعد في تعزيز استقرار الخدمات ذات قيود الذاكرة. وبشكل أعمق، تم تعريف الازدحام الناتج عن الخدمة كآلية عدم استقرار هيكلي، مما يوجه تصميمات الجدولة اللازمة للحفاظ على إنتاجية عالية.
كيف تؤثر الازدحامات الناتجة عن الخدمة على نماذج اللغات الضخمة ذات القدرة المحدودة؟
يستعرض البحث تأثير الازدحام الناتج عن الخدمة على نماذج اللغات الضخمة (LLM) في ظل قيود الذاكرة. ويقدم نموذجًا ديناميكيًا لفهم هذه الظاهرة وكيف يمكن إدارتها للحفاظ على أداء عالي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
