في إطار [التطورات التكنولوجية](/tag/التطورات-التكنولوجية) السريعة، تمكنت [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) [متعددة الوسائط](/tag/متعددة-الوسائط) (Multimodal Large Language [Models](/tag/models)) من إحداث نقلة نوعية في طريقة فهمنا للبيانات المتنوعة مثل النصوص والصور معًا. فقد أظهرت هذه [النماذج](/tag/النماذج) تقدمًا ملحوظًا في الاستجابة الذكية للأسئلة متعددة الوسائط، مما يجعلها محورًا بحثيًا جديدًا للنماذج الأساسية.
لكن، مع هذه الإنجازات، برزت [تحديات جديدة](/tag/[تحديات](/tag/تحديات)-جديدة) أبرزها مشكلة [عدم التوافق](/tag/عدم-[التوافق](/tag/التوافق)) بين النص والرؤية. فقد بيّن الباحثون أن الاستجابات النصية التي تولدها هذه [النماذج](/tag/النماذج) لا تتطابق دائمًا مع المدخلات النصية والصورية المعطاة. لذلك، يوجه هذا [البحث](/tag/البحث) [الانتباه](/tag/الانتباه) [نحو](/tag/نحو) إعادة [التفكير](/tag/التفكير) في البنية الأساسية لهذه [النماذج](/tag/النماذج).
يتم عادة [بناء](/tag/بناء) [النماذج](/tag/النماذج) [متعددة الوسائط](/tag/متعددة-الوسائط) على أساس [نماذج لغوية](/tag/[نماذج](/tag/نماذج)-لغوية) تعمل بنظام [فك تشفير](/tag/[فك](/tag/فك)-[تشفير](/tag/تشفير)) فقط (decoder-only)، والتي تعتمد على آلية [انتباه](/tag/انتباه) سببي (causal attention). هذه الطريقة تحد من القدرة على [دمج المعلومات](/tag/دمج-[المعلومات](/tag/المعلومات)) من المدخلات السمعية (مثل [الصور](/tag/الصور)) مع المدخلات اللغوية (مثل النصوص). لذلك، قدم الباحثون حلاً مبتكرًا من خلال فتح آلية [الانتباه](/tag/الانتباه) السببي وتحويلها إلى ما يسمى بالانتباه المتبادل بين الأنماط (Modality-Mutual [Attention](/tag/attention) - MMA).
هذه الآلية الجديدة تسمح لعناصر [الصور](/tag/الصور) أن تستجيب لعناصر النصوص، مما يعزز فعالية [النماذج](/tag/النماذج) في [معالجة المعلومات](/tag/معالجة-[المعلومات](/tag/المعلومات)) [متعددة الوسائط](/tag/متعددة-الوسائط). ومن خلال هذا التصميم، استطاعت [نماذج](/tag/نماذج) MMA أن [تحقق](/tag/تحقق) أداءً متفوقًا في 12 معيارًا لفهم [المعلومات](/tag/المعلومات) متعددة الوسائط، بزيادة قدرها 6.2% على المتوسط بين 3 [نماذج لسانية](/tag/[نماذج](/tag/نماذج)-لسانية) مختلفة، ومن دون الحاجة لإدخال معاملات إضافية.
المثير في هذا [التصميم](/tag/التصميم) هو أنه مصمم ليكون عامًا، مما يعني إمكانية تطبيقه في مجالات متعددة ومتنوعة، مما يفتح الباب أمام إمكانيات جديدة في [معالجة البيانات](/tag/معالجة-[البيانات](/tag/البيانات)) المعقدة.
فتح آفاق جديدة: كيف تعيد نماذج اللغة متعددة الوسائط تشكيل الفهم البصري واللغوي!
تقدم الدراسة الجديدة رؤية مبتكرة لتحسين نماذج اللغة متعددة الوسائط، عبر معالجة التحديات المرتبطة بتوافق النصوص والصور. تعزز هذه الرؤى قدرة النماذج على التفاعل بذكاء مع المحتويات المتنوعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
