تتطور وكالات الذكاء الاصطناعي المعتمدة على نماذج اللغات الضخمة (Large Language Models) بسرعة في مجال توليد أنوية وحدات معالجة الرسوميات (GPU Kernel Generation)، ولكن هذا التقدم يعوقه بشكل أساسي القيود المرتبطة بمعايير الأداء التي تتبعها. المعايير الحالية غالبًا ما تكون سيئة التوافق مع أطر استدلال الإنتاج، حيث تقيم الأنوية باستخدام مدخلات صناعية فقط على وحدة معالجة رسومية واحدة، وتتجاهل تراكم عمليات الترجمة، وبدلًا من تحقيق اكتشافات جديدة، تكافئ هذه المعايير على تكرار التحسينات المعروفة.

النتيجة كانت إشارات مكافأة مضللة، حيث تعلمت الوكالات توليد الأنوية التي تحقق نتائج جيدة في بيئات اختباريّة، لكنها تؤدي إلى عدم توافق في الواجهات، وصراعات في سلسلة الترجمة، وتدهور خفي في الأداء عند دمجها في الأنظمة الحقيقة.

في سياق هذا التحدي، تم تقديم FastKernels، معيار جديد مبني حول مجموعة بسيطة تتكون من 46 بنية تمثيلية تغطي 8 فئات، حيث تمثل أنويتها 96.2% (409 من 425) من بنى HuggingFace Transformers. لا يقتصر دور FastKernels على كونه معيارًا فحسب، بل يعمل أيضًا كإطار استدلال من الدرجة الإنتاجية يتناسب مع الأنظمة المحسنة مثل vLLM و SGLang، متفوقًا بشكل كبير في بعض البنى الضعيفة.

توفر واجهات المهام المختلفة تفاعلاً مباشرًا مع المكتبة الحديثة المتوافقة مع عائلة البنية، مما يمكّن من نشر الأنوية المحسنة مباشرة في شفرة الإنتاج. ومع تقييم الباحثين لأحدث وكالات الأنوية باستخدام FastKernels، تم العثور على أن أقوى الوكالات تحقق زيادة على سرعة الإنتاج بنسبة 0.94 فقط، بينما كانت النتائج الأخرى عند نسب 0.78 و 0.53، مما يؤكد أن عدم التوافق بين المعايير والأداء الإنتاجي يمثل عائقًا حاسمًا في هذا المجال.

يعد FastKernels خطوة هامة نحو تطوير وكالات الأنوية التي تحقق مكاسب في الأداء يمكن تحويلها مباشرة إلى تحسينات في الإنتاج، مع توفر الشيفرة على GitHub.

ما رأيكم في هذا التطور الجديد؟ شاركونا آرائكم في التعليقات!