في السنوات الأخيرة، حققت نماذج اللغات الكبيرة المتعددة الوسائط (Multimodal Large Language Models - MLLMs) تقدماً ملحوظاً بفضل نماذج فعالة دمجت بين المعلومات المرئية والنصية. تعتمد هذه النماذج الأساسية على أسلوب الموصلات الذي يربط الميزات المرئية بتسلسل النصوص، مما يتيح تحقيق توافق واستدلال متعدد الوسائط ضمن هيكلية توليد موحدة.

ومع ذلك، كشفت التجارب التي أُجريت عددًا من القيود الرئيسية. أولاً، رغم أن المعلومات المرئية تعتبر الأساس في MLLMs، إلا أنها تُعامل على قدم المساواة مع الرموز النصية مما يقلل من إسهامها الفريد. ثانياً، مع زيادة طول العملية التوليدية، وبالأخص ضمن نافذة سياقية محدودة، تبدأ اعتماد النموذج على المعلومات المرئية في التراجع، مما ينتج عنه تدهور في التوافق بين اللغة والصورة.

للتغلب على هذه التحديات، نقدم نموذج Vision Inference Former (VIF)، وهو وحدة معمارية خفيفة الوزن تعمل على إنشاء جسر مباشر بين التمثيلات المرئية النقية ومساحة خرج النموذج. يضمن VIF حقن الدلالات المرئية باستمرار خلال مرحلة فك الشيفرة، مما يحافظ على ارتباط النموذج بالمحتوى المرئي أثناء التوليد.

قمنا بإجراء تجارب على 14 مهمة معيارية تشمل الاستدلال العام، التعرف الضوئي على الحروف، فهم الجداول، والتقييم المرتكز على الرؤية. أظهرت النتائج التجريبية أن VIF يحسن أداء النموذج باستمرار عبر هياكل معمارية متنوعة مع إدخال عبء إضافي ضئيل.

هذا التطور يعد بداية جديدة لنماذج الذكاء الاصطناعي المتعددة الوسائط. فما رأيكم في هذا الابتكار؟ هل ترون أن تحديد موضع المعلومات المرئية سيثير ثورة جديدة في هذا المجال؟ شاركونا آرائكم في التعليقات!