في عالم نماذج اللغة الكبيرة المعززة بالاسترجاع (Retrieval-Augmented Generation - RAG)، يُعتبر تحسين الأداء في مهام الأسئلة والأجوبة المعتمدة على المعرفة تحديًا رئيسيًا. على الرغم من النجاح الذي تحققه هذه النماذج، إلا أن التحليلات الأخيرة بدأت في تسليط الضوء على مشاكل رئيسية، من بينها "تشتيت الانتباه" الذي يحدث عندما يُكتفى بالنص المُسترجع، مما يُؤثر سلبًا على الفهم البصري للنموذج.

سابقًا، كان يُعتقد أن فشل نماذج RAG ناتج عن تركيز الانتباه البصري بشكل غير كافٍ على السياق المسترجع. لكن الدراسة الجديدة تقدم بعدًا آخر للمشكلة، حيث تُظهر أن النصوص المسترجعة، عندما تكون ذات صلة مرتفعة أو تقدم إجابات صحيحة، يمكن أن تؤدي إلى تشتيت انتباه النموذج. بدلاً من تحسين فهم النموذج للصورة والسياق، يُخفق النموذج في التركيز على المناطق ذات الصلة بالأسئلة.

لتقليص هذه المشكلة، تم تقديم الحل المعروف باسم "MAD-RAG"، وهو تدخل يعتمد على تنظيم الأسئلة بطريقة تضمن فصل الأسئلة البصرية عن تكامل المحتوى. يقوم هذا النموذج باستخدام تقنية مزج الانتباه للحفاظ على الأدلة المتعلقة بالصورة.

تظهر الاختبارات الواسعة التي تم إجراؤها على مجموعات بيانات مثل OK-VQA وE-VQA وInfoSeek أن MAD-RAG يتفوق باستمرار على النماذج التقليدية، محققًا تحسينات ملحوظة تصل إلى 4.76% و9.20% و6.18% على التوالي. الأهم من ذلك، أن MAD-RAG وجد أنه قادر على تصحيح 74.68% من حالات الفشل دون أي تكلفة حسابية كبيرة.

بهذه الطريقة، يفتح MAD-RAG آفاقًا جديدة لتحسين أداء نماذج اللغة البصرية، مما يساعدها على التغلب على التحديات الحالية والمضي قدمًا نحو مستوى أعلى من الفهم والتفاعل.