تواجه نماذج اللغة متعددة الوسائط (MLLMs) تحدياً كبيراً يتضمن ما يعرف بالتخييل، حيث تقوم هذه النماذج بإنتاج محتوى غير متوافق مع الصور المرفقة. في دراسة جديدة، تم اكتشاف توقيع داخلي يشير إلى هذه المشكلة، ويتمثل في تدهور تدريجي لانتقال الانتباه بين النص والصورة أثناء عملية الإنتاج، مما يؤدي إلى أنماط فشل محددة مثل التركيز غير الواضح أو الانحياز في الانتباه.

حيث أن استراتيجيات التخفيف الحالية تعتمد بشكل كبير على النتائج ولا تتعامل بشكل مباشر مع هذا الوضع، اقترح الباحثون إطار عمل يسمى ADAPT (توافق ديناميكيات الانتباه مع ضبط التفضيلات) الذي يتدخل ببساطة في ديناميات الانتباه بين النص والصورة.

يقدم نظام ADAPT ثلاثة إسهامات رئيسية: الأول هو استخدام "مرساة بصرية" تم تحسينها من عملية فك الترميز المبكر لتوفير دعم مكاني مستقر. الثاني هو آلية استدلال معززة بالانتباه التي تكشف وتحسن انحراف الانتباه عبر الإنترنت. الثالث هو توجيه الانتباه البصري الذي يتماشى مع التفضيلات نحو استجابات متصلة بصريًا.

أثبتت التجارب أن كل مكون من مكونات ADAPT يسهم في تقليل التخييل، وأن الإطار الكامل يحقق نتائج جديدة مميزة عبر عدة معايير للتخييل، حيث تقلل معدلات التخييل بنسبة تتراوح بين 40% إلى 60% عبر النماذج الشائعة دون التأثير على القدرات الشاملة للنماذج متعددة الوسائط.

تقدم هذه الدراسة منظوراً جديداً من خلال التركيز على سلوكيات الانتباه الداخلية للنموذج في التعامل مع ظاهرة التخيل، مما يعكس أهمية البحث المستمر في هذا المجال. شيفرة البحث متاحة على GitHub لمن يود الاستفادة منها.