في عالم الذكاء الاصطناعي المتسارع، تظل كفاءة استدلال نماذج التعلم العميق تحديًا كبيرًا، خاصة عند نشر نماذج بحجم DeepSeek-R1 671B على خوادم متعددة البطاقات الرسومية. هنا يأتي دور FlashMLA-ETAP، الإطار الثوري الذي يعمل على تعزيز أداء استدلال Multi-Head Latent Attention (MLA) بشكل استثنائي.

يقدم FlashMLA-ETAP نهجًا مبتكرًا عبر Efficient Transpose Attention Pipeline (ETAP)، حيث يقوم بإعادة ضبط حسابات الانتباه عبر عملية التحويل لتتماشى مع طول السياق (KV context length) في العمليات المتعددة الأبعاد (WGMMA). ونتيجة لذلك، نتمكن من تقليل الحسابات الزائدة بشكل ملحوظ.

تظهر النتائج أن FlashMLA-ETAP يحقق تسريعًا يصل إلى 2.78 مرة مقارنةً بـ FlashMLA عند استخدام سلسلة يبلغ طولها 64K (حجم الدفعة 16)، بالإضافة إلى تحسينات تفوق 5.24 مرة و4.94 مرة على FlashAttention-3 وFlashInfer على التوالي. من الجدير بالذكر أن هذه التحسينات تأتي مع الحفاظ على استقرار رقمي ملحوظ، حيث كان الانخفاض في الجذر التربيعي للخطأ المتوسط (RMSE) 15.2 مرة أقل من FlashAttention-3.

يسمح تصميم ETAP بالتكامل السلس مع الأطر الأخرى مثل FlashAttention-3 وFlashInfer، مدعومًا بتحليل نظري شامل. يعالج عملنا فجوة حرجة في استدلال النماذج في البيئات ذات الموارد المحدودة، مقترحًا حلاً قابلاً للتطوير لوحدات معالجة الرسوميات المتوسطة، مما يمهد الطريق لتبني أوسع في تحسينات تعتمد على العتاد.

لمن يرغب في استكشاف الكود، يمكن الوصول إليه عبر رابط GitHub. هل تعتقد أن هذه الابتكارات ستفتح آفاق جديدة في عالم الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!