في عالم الذكاء الاصطناعي اليوم، تبرز نماذج اللغة متعددة الوسائط (Omnimodal Large Language Models) كأدوات قوية قادرة على معالجة النصوص، الصور، والأصوات بشكل متكامل. ومع ذلك، يتساءل عدد متزايد من الباحثين عن فعالية هذه النماذج عندما تواجه معلومات متناقضة. فهل تعود المشكلة إلى الإدراك، أم أنها تتعلق بالإجراء الذي تقوم به النماذج؟

في دراسة جديدة، تم تقديم
"IMAVB"، وهو معيار يتكون من 500 مقطع من الأفلام الطويلة، تم تصميمه بشكل يسمح بقياس قدرة النماذج على اكتشاف التناقضات. يتم تقسيم المحتوى إلى نوعين أساسيين: الإدراك البصري (Vision) والإدراك السمعي (Audio)، مما يساعد في تحليل أداء النماذج بشكل أكثر دقة.

تشير النتائج إلى وجود "فجوة بين الإدراك والإجراء"، حيث ينجح بعض النماذج في التعرف على الاختلافات بين المعلومات المدخلة والمعلومات المرئية أو السمعية، لكن أداءها غالبًا ما يفشل في رفض المزاعم الخاطئة. وبعبارة أخرى، النماذج تميل إلى قبول معلومات مضللة كأنها صحيحة، بينما في حالات أخرى ترفض الأسئلة بشكل مفرط، مما يؤثر على دقة فهمها.

هذه الدراسة تبرز أهمية تحسين استراتيجيات ترجمة المعلومات داخل النماذج لإنتاج نتائج أكثر موثوقية، وتسلط الضوء على تحديات كبيرة ما زالت قائمة في تطوير الذكاء الاصطناعي. في نهاية المطاف، يبدو أن العائق الأكبر أمام النماذج المتعددة الوسائط يكمن في معالجة المعلومات، وليس في قدرتها على الإدراك.

تأتي هذه الدراسة كدافع للبناء على هذه الأبحاث لفهم كيفية تجاوز هذه الفجوة وتحسين أداء النماذج في المستقبل.

ما رأيكم في هذه النتائج المثيرة؟ هل تعتقدون أن هذه النماذج ستستطيع تجاوز هذه التحديات؟ شاركونا في التعليقات!