مع تزايد الطلب على تنفيذ نماذج اللغات الكبيرة (LLM) على الأجهزة المحمولة، تسعى وحدات معالجة الشبكات العصبية (NPUs) من AMD لتحسين الأداء والكفاءة الطاقية رغم القيود الحرارية. ومع ذلك، فإن نشر نماذج LLM بشكل عملي على وحدات NPU الحالية يعد تحديًا بسبب عدم مناسبة تنسيقات التحويل الشائعة مثل AWQ للكثير من البرامج المتاحة.
للتغلب على هذه العقبة، جاء الابتكار الجديد TileFuse، وهي مكتبة كيرنل مختلطة تجمع بين التنسيق الدقيق والعالي، مخصصة لوحدات معالجة XDNA2. تستهدف TileFuse بشكل خاص الطبقات الخطية في نماذج LLM، حيث تقدم تنسيقات عملية ذات دقة منخفضة مثل W4A16 وW8A16 مباشرة دون الحاجة إلى إعادة تشكيل النموذج وفقًا لمخططات تحويل مخصصة.
أبرز ما يميز TileFuse هو تصميمها المتكامل الذي يجمع بين توزيع الوزن، وهيكلة البيانات، والميكروكريدل المختلط، وجريان البيانات على مستوى المصفوفة. فقد تم دمج عملية فك التغليف وإزالة التحويل وتنفيذ عمليات GEMM/GEMV في تدفق كيرنل واحد، مما يقدم تحسينًا هائلًا للأداء يصل إلى 121.6% لعمليات GEMM و281% لعمليات GEMV مقارنةً بمعايير الدقة الكاملة.
في تجارب نموذجية على أجهزة Ryzen AI، تحقق TileFuse أداءً مذهلاً من حيث تقليل زمن التحميل بمعدل يصل إلى 2.0 مرة وانخفاض استهلاك الطاقة بنسبة تفوق 64.6%. هذه النتائج تؤكد أن طراز XDNA2 يشكل خيارًا عمليًا لتنفيذ نماذج LLM عالية الدقة على الأجهزة المحمولة، مما يسهم في تعزيز كفاءة الاستخدام الواقعي لوحدات NPU في التطبيقات العملية.
إن TileFuse ليست مجرد مكتبة كيرنل، بل هي خطوة هائلة نحو تحسين الأداء الطاقي والتقني في عالم الذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا تجاربكم وآرائكم في التعليقات.
TileFuse: ثورة في أداء نماذج الذكاء الاصطناعي بفضل مكتبة كيرنل المعزّزة!
تقدم TileFuse مكتبة كيرنل معزّزة تركز على تحسين أداء نماذج اللغات الكبيرة (LLM) على وحدات معالجة الشبكات العصبية (NPUs) الخاصة بـ AMD. تنجح هذه المكتبة في تعزيز الكفاءة الطاقية وسرعة الأداء لنماذج الذكاء الاصطناعي في الأجهزة المحمولة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
