لقد حققت نماذج الرؤية-اللغة (Large Vision-Language Models) نجاحًا باهرًا في العديد من المهام متعددة الوسائط، لكنها لا تزال تواجه مشكلة الأوهام، حيث تنتج محتوى غير متسق مع المدخلات المرئية. وفي سياق ذلك، تم طرح تقنية جديدة تُعرف بـMHSA (Mitigating Hallucinations via Steered Attention) لتقديم حلاً فعالاً لمعضلة الأوهام.

قبل MHSA، كان هناك مشروع يحمل اسم DHCP (Detecting Hallucinations by Cross-modal Attention Pattern) الذي تناول مسألة اكتشاف الأوهام، ولكن دون أن يقدم حلولًا فعالة لمعالجتها. تتضمن منهجية MHSA إطارًا خفيفًا يركز على تصحيح أنماط الانتباه المتقاطع في نماذج الرؤية-اللغة. حيث يتم تدريب مولد بسيط مكون من ثلاث طبقات مخصصة لإنتاج انتباه مصحح، وهو مسار يتم توجيهه بإشارات إشرافية من مُفرق DHCP ونموذج الرؤية-اللغة نفسه.

أثناء مرحلة الاستدلال، يعمل MHSA على معالجة كل من الأوهام التمييزية والإبداعية عبر مجموعات بيانات ونماذج متعددة، من خلال استبدال الانتباه المتقاطع الأصلي بالمنتج المصحح، دون الحاجة لتعديل أي من معلمات نموذج الرؤية-اللغة. يُعتبر التمديد لهذه الآليات من اكتشاف الأوهام إلى تقليلها نهجًا متقدمًا يمنح لمحة جديدة عن أبحاث الأوهام في نماذج الرؤية-اللغة.

بهذا الشكل، يعزز MHSA موثوقية نماذج الذكاء الاصطناعي في معالجة المعلومات المرئية واللغوية، مما يبشر بعصر جديد في أبحاث الذكاء الاصطناعي المستقبلية.