في عالم الذكاء الاصطناعي، لطالما كانت نماذج اللغة المرئية (Vision-language models - VLMs) تتصدر المشهد في تقديم إجابات دقيقة عن الأسئلة المرئية (Visual Question Answering - VQA). ومع ذلك، قد تواجه هذه النماذج تحديات هامة تتمثل في "هلاوس فردية" ونقاط عمياء. لذلك، أدى تجمع وجهات النظر المتنوعة من خلال التعاون بين الوكلاء المتعددين إلى بروز نموذج واعد لمواجهة هذه التحديات.

لقد أظهرت الأساليب التقليدية في VQA المعتمدة على الوكلاء المتعددين نجاحاً كبيراً في معالجة البيانات النصية، ولكن إمكانياتها في مجال الوسائط المتعددة لا تزال غير مستكشفة بالكامل. كما أن الطرق الحالية غالبًا ما تتبنى بروتوكولات تركز على النصوص، مما يؤدي إلى تجاهل تنسيق المعلومات المرئية الهمة.

في هذا الإطار، يكشف البحث عن رؤية جديدة، مفادها أن الاتفاق على مستوى الإجابات وحده لا يكفي لضمان VQA موثوق؛ بل تحتاج النماذج إلى "أدلة مرئية متوافقة" تشاركها مناطق الصور التي يعتمد عليها الوكلاء.

ويبرز هنا الإطار الجديد الذي يحمل اسم EAGLE (الإثبات المتوافق مع التفكير المتعدد الوكلاء المترابط). يظهر EAGLE كيف يمكن لوكلاء VLM المتعددين التنسيق مع بعضهم البعض بصورة فعالة عبر عرض مناطق الإدراك الخاصة بكل وكيل كأدلة مرئية، مما يتيح لهم التحقق المتبادل من هذه الأدلة ويستخدم توافق الأدلة لتوجيه اتخاذ القرار النهائي.

أظهرت التجارب على ستة معايير لـ VQA أن EAGLE تحقق الأداء الأفضل في المتوسط عبر مختلف المجالات، بينما تبقى خفيفة الوزن، واضحة وملائمة للتطبيق. يعد هذا الابتكار خطوة فارقة نحو تعزيز دقة نماذج الأسئلة المرئية والتخلص من المخاوف المرتبطة بها.