في عالم الذكاء الاصطناعي، يعتمد استنتاج المحولات (Transformers) بشكل متزايد على دعم برامج مخصصة ووحدات تنفيذ محددة. ومع ذلك، تتطلب الرسوم البيانية الحقيقية للنماذج اتخاذ قرارات سيمنطقية حول المناطق التي تستحق التخصيص وأي عائلات تنفيذ CUDA يمكن أن تكون قابلة للتطبيق.

يُقدم لنا مشروع "AgentCompile"، المترجم الذكي المدعوم بنماذج اللغات الكبيرة (LLM-guided CUDA inference compiler)، والذي يساعد المطورين من خلال استخدام نواتج نماذج اللغات كبيانات استشارية. يعتمد هذا المترجم على ملخصات المناطق المستمدة من المترجم، ويقوم بترشيح المساحات المعينة، حيث يقترح LLM تسميات دلالية وأولويات مقترحة وعوامل مساعدة، بالإضافة إلى تقييم المخاطر.

تقوم الأداة بإنشاء مرشحات CUDA من خلال قوالب، وتفحص التقييدات المتعلقة بالواجهة والأجهزة، وتتحقق من المرشحات بشكل تجريبي، وتختار التنفيذات بناءً على قياس زمن الوصول. في حالة عدم دعم التخصيص أو عدم جدواه، تتراجع الأداة إلى خيارات أخرى.

في تجارب الاستنتاج التلقائي الشامل، يحقق AgentCompile تسريعاً مذهلاً بمتوسط 5.66 مرة، و4.05 مرات، و4.26 مرات مقارنةً بأساليب استخدام PyTorch مع موديلات Qwen3-1.7B، وQwen3-4B، وLlama-3.2-1B-Instruct على التوالي، عبر خمس مهام عمل تمثيلية. وما يُثلج الصدر هو أن هذا المشروع سيصبح مفتوح المصدر قريباً، مما يتيح للجميع الاستفادة منه وتطويره.