في إطار التطورات التكنولوجية السريعة، تمكنت النماذج اللغوية متعددة الوسائط (Multimodal Large Language Models) من إحداث نقلة نوعية في طريقة فهمنا للبيانات المتنوعة مثل النصوص والصور معًا. فقد أظهرت هذه النماذج تقدمًا ملحوظًا في الاستجابة الذكية للأسئلة متعددة الوسائط، مما يجعلها محورًا بحثيًا جديدًا للنماذج الأساسية.
لكن، مع هذه الإنجازات، برزت تحديات جديدة أبرزها مشكلة عدم التوافق بين النص والرؤية. فقد بيّن الباحثون أن الاستجابات النصية التي تولدها هذه النماذج لا تتطابق دائمًا مع المدخلات النصية والصورية المعطاة. لذلك، يوجه هذا البحث الانتباه نحو إعادة التفكير في البنية الأساسية لهذه النماذج.
يتم عادة بناء النماذج متعددة الوسائط على أساس نماذج لغوية تعمل بنظام فك تشفير فقط (decoder-only)، والتي تعتمد على آلية انتباه سببي (causal attention). هذه الطريقة تحد من القدرة على دمج المعلومات من المدخلات السمعية (مثل الصور) مع المدخلات اللغوية (مثل النصوص). لذلك، قدم الباحثون حلاً مبتكرًا من خلال فتح آلية الانتباه السببي وتحويلها إلى ما يسمى بالانتباه المتبادل بين الأنماط (Modality-Mutual Attention - MMA).
هذه الآلية الجديدة تسمح لعناصر الصور أن تستجيب لعناصر النصوص، مما يعزز فعالية النماذج في معالجة المعلومات متعددة الوسائط. ومن خلال هذا التصميم، استطاعت نماذج MMA أن تحقق أداءً متفوقًا في 12 معيارًا لفهم المعلومات متعددة الوسائط، بزيادة قدرها 6.2% على المتوسط بين 3 نماذج لسانية مختلفة، ومن دون الحاجة لإدخال معاملات إضافية.
المثير في هذا التصميم هو أنه مصمم ليكون عامًا، مما يعني إمكانية تطبيقه في مجالات متعددة ومتنوعة، مما يفتح الباب أمام إمكانيات جديدة في معالجة البيانات المعقدة.
فتح آفاق جديدة: كيف تعيد نماذج اللغة متعددة الوسائط تشكيل الفهم البصري واللغوي!
تقدم الدراسة الجديدة رؤية مبتكرة لتحسين نماذج اللغة متعددة الوسائط، عبر معالجة التحديات المرتبطة بتوافق النصوص والصور. تعزز هذه الرؤى قدرة النماذج على التفاعل بذكاء مع المحتويات المتنوعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
