ثورة في فهم اللغات والمرئيات: تعرف على LinMU وأسراره المذهلة!

في عصر تتزايد فيه حاجة التكنولوجيا لفهم تفاعلات الإنسان مع المحتوى المتعدد الوسائط، طورت الأبحاث الحديثة نموذج LinMU (فهم متعدد الوسائط بتعقيد خطي) والذي يمثل قفزة نوعية في النماذج الرؤية واللغة (Vision-Language Models - VLMs).

تُعاني النماذج الحالية من قيود شديدة بسبب تعقيد الذات النقل (self-attention) الرباعي، مما يمنع استخدامها على الأجهزة المتنقلة ويجعل معالجة الصور عالية الدقة والفيديوهات الطويلة باهظة الثمن. وهنا يأتي دور LinMU، الذي تم تصميمه لتحقيق تعقيد خطي في مكونات نموذج اللغة دون الاعتماد على أي وحدات ذات تعقيد رباعي، بينما يحافظ على أداء نماذج VLMs التقليدية المعتمدة على الانتباه العام.

يستبدل LinMU كل طبقة انتباه ذاتي في نموذج اللغة بكتلة M-MATE: وهي وحدة ثنائية الفرع تجمع بين نموذج حالة ثنائية الاتجاه لتحقيق سياق عالمي (فرع Flex-MA) مع انتباه محلي بأسلوب Swin للتعامل مع الترابطات المجاورة (فرع Local-Swin).

لتحديث نموذج VLM المدرب مسبقاً إلى بنية LinMU، اقترح الباحثون إطار تنقية من ثلاث مراحل، تشمل:
1. **تهيئة الفروع** بتوزيع أوزان ذاتية الانتباه وتدريب فرع Flex-MA بمفرده.
2. **تحرير الفرع المحلي** وتحسينه معاً مع فرع Flex-MA.
3. **تحرير الكتل المتبقية** وتحسينها باستخدام موصلات LoRA، بينما يتم الرجوع إلى الحالات المخفية ونتائج الرموز للنموذج المعلم المتجمد.

ويظهر LinMU أداءً مماثلاً للنماذج المعلمية في الاختبارات المختلفة مثل MMMU وTextVQA وLongVideoBench وVideo-MME، مع تقليل زمن الوصول الأولي للإنتاج بنسبة تصل إلى 2.7 مرة وزيادة عبر الرموز بنسبة تصل إلى 9.0 مرات في الفيديوهات الطويلة.

تعكس التجارب أهمية كل مرحلة من مراحل التنقية وضرورة الفرعين في كتلة M-MATE. ويظهر هذا الإطار أن تفكير متعدد الوسائط من الطراز الأول يمكن تحقيقه دون الحاجة إلى الانتباه الرباعي، مما يفتح آفاقاً جديدة لنماذج VLMs التي تستطيع التعامل مع الصور عالية الدقة والفيديوهات الطويلة.

ثورة في فهم اللغات والمرئيات: تعرف على LinMU وأسراره المذهلة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

تحديات تطوير تطبيق بريد إلكتروني يدهش الجميع!

ثورة الذكاء الاصطناعي: OpenAI تطلق إضافة كروم جديدة لوكيل Codex تسهل التفاعل مع أشهر المنصات!

دفاعات إلكترونية مبتكرة: نموذج CyberSecQwen-4B وجعل الأمن الإلكتروني محليًا!