من المعروف أن الوكلاء الذكاء الاصطناعي (AI agents) يتطلبون تنفيذ العشرات إلى المئات من استدعاءات نماذج اللغات الضخمة (Large Language Models) في كل مهمة. ومع ذلك، تتعامل جدولات GPU مع كل استدعاء على أنه مستقل، مما يؤدي إلى إهمال كميات هائلة من الحالة الوسيطة بين الخطوات وزيادة زمن الاستجابة النهائي بمعدل يتراوح بين 3 إلى 8 مرات.

في هذا السياق، يظهر نموذج SAGA كحل مبتكر من خلال اقتراح نقلة نوعية نحو جدولة على مستوى البرنامج بدلاً من مجرد استدعاءات فردية. يقدم SAGA ثلاث آليات رئيسية تعزز من كفاءة الجانب العملي:

1. **رسوم بيانية لتنفيذ الوكلاء (Agent Execution Graphs)**: تلتقط بنية سير العمل لتوقع إعادة استخدام ذاكرة التخزين المؤقت عبر حدود استدعاء الأدوات، مما يحقق نتائج قريبة جداً من السياسة المثالية.
2. **تجميع التفضيلات الجلسية (session-affinity batching)**: يضمن تجميع الطلبات المتصلة مع الحفاظ على توازن التحميل الكلي.
3. **مشاركة عادلة للوكلاء (Agent Fair Share)**: مقياس لإنصاف زمن إكمال المهام مع ضمانات انحراف محدودة.

على مجموعة مكونة من 64 وحدة معالجة رسومية (GPU) تخدم وكلاء برمجة SWE-bench ومهام المتصفح WebArena، حقق SAGA انخفاضًا في زمن إكمال المهام بمعدل 1.64 مرة مقارنةً بالنسخة السابقة vLLM v0.15.1 مع تخزين مؤقت وإعادة توجيه.

ومع ذلك، تأتي هذه المكاسب في زمن الاستجابة بتكلفة محددة: حيث يصل الإنتاج خلال الذروة إلى حوالي 30% أقل في سعة الإنتاج مقارنة بنموذج جدولة دفعات هو الأمثل، وهو تنازل مناسب للتطبيقات التفاعلية الحساسة للزمن.

توضح نتائج SAGA أن جدولة واعية بسير العمل تُعد ضرورية لتقديم الخدمات بكفاءة في بيئات الذكاء الاصطناعي المعقدة.