في عالم الذكاء الاصطناعي، تُعتبر النماذج اللغوية متعددة الوسائط (Multimodal Large Language Models) من أبرز التطورات الحديثة. تعتمد هذه النماذج في تصميمها على هيكلية معمارية معقدة تُدعى Transformers، ولكن هناك مشكلة رئيسية نواجهها: عدم التوازن في معالجة المعلومات بين الصور والنصوص.

تظهر الأبحاث الجديدة حول نموذج LLaVA-1.5 أن الرموز المرئية (vision tokens) تبدأ في التشبع في الطبقات الوسطى. على سبيل المثال، ينخفض اهتمام النص إلى الصورة من 0.68 عند الطبقة الأولى إلى 0.07 عند الطبقة الرابعة، مما يعني أن هذه الرموز لا تستفيد بالشكل الكافي من العمق الدلالي كما تفعل الرموز النمطية للنص. ولذا كان من المنطقي تطوير تقنية جديدة لحل هذه المشكلة.

نقدم لكم تقنية Dual-Path Vision Token Routing (DPVR)، التي تقوم بتوجيه الرموز المرئية في نقطة التشبع إلى مسار جانبي قابل للتدريب. يعمل هذا المسار على إدخال البيانات النصية فقط على مدى ثلاثة عشر طبقة، ويتجاوز صورة البيانات في هذا السياق. وفي نهاية العملية، يتم دمج تدفقات البيانات البصرية والنصية فقط في الطبقة النهائية.

يتحقق ذلك مع الحفاظ على حوالي 3% فقط من المعلمات القابلة للتدريب، مما يدل على كفاءة التقنية الجديدة في احتفاظها بأداء متميز في اختبارات المعايير المعروفة. هذه النتائج تتحدى الافتراض التقليدي بأن الرموز المرئية يجب أن تمر عبر كافة طبقات النموذج، مما يفتح أبوابًا جديدة للبحث في أداء النماذج اللغوية متعددة الوسائط.

ما رأيكم في هذه التطورات الثورية؟ شاركونا في التعليقات!