في عصر تتسارع فيه تطورات الذكاء الاصطناعي، تزداد التحديات المرتبطة بتحسين الأداء على منصات GPU بشكل مستمر، مما يمثل عائقاً أمام أنظمة الاستدلال (Inference Systems) الحديثة. تقليديًا، اعتمد المطورون على كتابة الكيرنلات (Kernels) المخصصة واستخدام محولات النماذج (Model Compilers) المتخصصة لضبط التعليمات البرمجية العالية المستوى للحصول على أداء مُحسّن.

ومع ذلك، تكشف الأبحاث الحديثة عن قدرة أنظمة متعددة الوكلاء المدعومة بنماذج لغوية ضخمة (LLMs) على القيام بهذه المهمات بكفاءة تفوق المحولات التقليدية، مما يلغي الحاجة لتنمية الكيرنلات يدويًا. رغم ذلك، لا تزال ديناميكيات أنظمة الوكلاء المتعددة لهذه المهمة غير مستكشفة.

في دراستنا الجديدة، نقدم إطارًا منطقيًا للمقارنة بين أنظمة تحسين PyTorch المعتمدة على الوكلاء المتعددين. نتائج التقييم تشير إلى أن الاستراتيجيات المعتمدة على استغلال الموارد تعمل بشكل أفضل عند إقرانها مع وكلاء تصحيح الأخطاء، وأن أداء الأنظمة يرتبط بدقة خطوات التحسين.

تُظهر أفضل تنفيذ أن بمقدوره تحقيق تسريع بمعدل 2.88 مرة مقارنةً بـ PyTorch Eager، و1.85 مرة مقارنةً بـ torch.compile عند استخدامه على خوادم H100 عبر مجموعة متنوعة من المهام في KernelBench، وهي مجموعة معايير تغطي مجموعة من هياكل التعلم العميق.

هذا البحث يمثل نقلة نوعية في كيفية تحسين أداء أنظمة الذكاء الاصطناعي، حيث يُعدّ تطبيقه متاحًا للجمهور على GitHub، مما يسهل على المطورين الاستفادة من نتائج الدراسة لتسريع تطبيقاتهم بشكل كبير.