لقد أحدثت نماذج مزيج الخبراء متعددة الوسائط (MoE-MLLMs) ثورة حقيقية في مجال الذكاء الاصطناعي، حيث تجمع بين كفاءة النص والصورة. لكن التحدي الرئيسي الذي تواجهه هذه النماذج هو تكاليف الذاكرة الشديدة التي تتطلبها عند استخدام وحدات المعالجة الرسومية (GPU). ولذا، فإن ضغط هذه النماذج أصبح أمرًا ضروريًا لمنع المشاكل المرتبطة بالذاكرة.
تظهر الدراسات أن تقنية الضغط الكمي المختلط (Mixed-Precision Quantization) على مستوى الخبراء تعتبر فعّالة في تحسين أداء نماذج MoE-LLMs، ولكنها تعاني من تدهور ملحوظ عند تطبيقها على نماذج MoE-MLLMs. ترجع هذه المشكلة إلى تحيزين رئيسيين يتم تجاهلهما في تقدير أهمية الخبراء. التحيز الأول يتعلق بارتفاع عدد رموز الرؤية (Vision Tokens)، مما يؤدي إلى تفوق اختيارات الخبراء المرتبطين بالرؤية على باقي الخبراء، وبالتالي يقلل من فرص اختيار الخبراء المهمين للنص. أما التحيز الثاني، فهو يتعلق بتخفيض نسبة رموز الرؤية المكررة، مما يؤثر سلبًا على إحصاءات التكرار ويخفي خبراء أساسيين للمحتوى البصري الهام.
لمواجهة هذه المشاكل، يتم تقديم إطار MODE، الذي يعتمد على فك تشفير اختيارات الخبراء وفقًا لكل نمط، ويعمل على تصفية رموز الرؤية الزائدة للحصول على مستويات تكرار أكثر وضوحًا. كما يأخذ في الاعتبار حساسية الكوانتيزات لكل نمط كمؤشر تكميلي عند التقدير.
تكامل هذه الإشارات في صيغة برمجة عددية صحيحة (Integer Linear Programming) يسهل تخصيص عرض البيانات لكل خبير وفقًا لميزانية معينة. وقد أثبتت تجارب مكثفة أن MODE مناسب بشكل خاص لنماذج MoE-MLLMs، حيث يحد من متوسط فقد الأداء إلى 2.9% عند إعداد W3A16، مع تحقيق مكاسب أكبر في إعداد 2-بت.
هذا الابتكار قد يفتح آفاق جديدة أمام الباحثين والمطورين في مجال الذكاء الاصطناعي، مما يسهل عليهم تطوير نماذج أكثر كفاءة وقوة. فما رأيكم في هذا التطور الداعم للذكاء الاصطناعي؟ شاركونا آراءكم وتعليقاتكم!
اكتشاف إمكانيات مذهلة: MODE يغير قواعد اللعبة في ضغط نماذج اللغات متعددة الوسائط!
تمثل نماذج MoE-MLLMs نقلة نوعية في عالم الذكاء الاصطناعي، لكن الحاجة إلى ضغط هذه النماذج أصبحت ملحة. يقدم إطار MODE حلاً مبتكرًا لتقليل تكاليف الذاكرة وزيادة الكفاءة دون فقد كبير في الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
