في عالم الذكاء الاصطناعي المتنامي، تعتبر نماذج الأساس متعددة الوسائط (Multimodal Foundation Models) أداة قوية قادرة على معالجة وتوليد بيانات من أنماط مختلفة مثل النصوص والصور والأصوات. ومع تعقيد هذه النماذج، يكون السرعة والكفاءة من الأولويات الرئيسية. يظهر مقال حديث نشر على منصة arXiv دراسة مبتكرة تستعرض منهجية متعددة الطبقات لتسريع نماذج MFMs بطريقة فعالة.

تجمع هذه المنهجية بين تصميم الأجهزة والبرامج في كتل المحولات (Transformer Blocks) مع أنظمة تحسين تقلل من متطلبات الحوسبة والذاكرة. يتضمن تطوير النموذج إدخال تحسينات في الأداء من خلال الفاين-تuning لتهيئة متخصصة تناسب مجالات معينة، مما يعكس تبني تقنيات حديثة تجسد التطور المستمر في هذا المجال.

أحد الابتكارات الرئيسية في هذه الدراسة هو تقنيات ضغط نماذج MFMs باستخدام التكمية المختلطة الوعي بالهرمية (hierarchy-aware mixed-precision quantization) وإزالة الهيكلية في كتل المحولات وقنوات MLP. كما تم تحسين العمليات من خلال فك الشفرات الاستباقية (speculative decoding) وتنسيق أسئلة المستخدم عبر تسلسل صغير إلى كبير، مع اعتماد اختبارات ذاتية خفيفة لمعرفة متى يجب الانتقال إلى نماذج أكبر.

هذا نظراً إلى الحاجة لتنفيذ فعال للنموذج، يتم تحسين تدفق البيانات المعالج بناءً على بنية الأجهزة المتاحة مع التركيز على كفاءة الذاكرة لضمان تلبية متطلبات عرض النطاق الترددي والكمون المتوقعة. لدعم ذلك، يتم استخدام مسرع مخصص للأجهزة لتحميلات العمل المرتبطة بالتحويل، والذي يمكن تطويره من خلال التصميم الخبير أو طرق التصميم المعتمدة على نماذج لغوية ضخمة (LLMs).

أظهرت النتائج نجاح هذه المنهجية بشكل خاص في تطبيقات مثل نماذج MFMs الطبية ومهام توليد الشفرات، مما يمهد الطريق لتطبيقات مستقبلية نحو نماذج MFMs ذات طاقة فعالة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!