في عالم الذكاء الاصطناعي، تمكنت نماذج التفكير المتعدد الوسائط (Multimodal Large Reasoning Models - MLRMs) من تحقيق تقدم ملحوظ في معالجة الصورة. ومع ذلك، لا تزال الهلاوس تمثل تحدياً كبيراً، خاصة في سيناريوهات التفكير المعقد. في هذه الورقة، نكشف عن ظاهرة مثيرة للقلق تُعرف بفصل الحقيقة البصرية عن التفكير (Reasoning Vision Truth Disconnect - RVTD)، حيث تتضح العلاقة الوثيقة بين الهلاوس ونقاط الانقسام المعرفي التي تظهر غالباً في حالات عالية من الاضطراب.

نحن نعزو هذا الضعف إلى انهيار في الربط الدلالي البصري، والذي يحدث في طبقات الشبكة الوسيطة. خلال الانتقالات التي تشهد مستوى عالياً من عدم اليقين، يفشل النموذج في الاستفسار عن الأدلة البصرية، وبدلاً من ذلك، يعود إلى المعايير اللغوية.

لمعالجة هذا التحدي، ندعو لتغيير نهجنا من الاعتماد فقط على إشراف نتائج الأداء إلى تعزيز ذلك مع توجيه الانتباه الداخلي الدقيق. ولهذا الغرض، نقترح استراتيجية V-STAR (تدريب هيكلي بصري مع تعزيز الانتباه)، وهو نموذج تدريب خفيف الوزن وشامل يهدف إلى تحسين قدرات التفكير البصري داخل النموذج.

تتمحور استراتيجيتنا حول مكافأة الانتباه البصري الهرمي (Hierarchical Visual Attention Reward - HVAR)، والتي تُدمج ضمن إطار GRPO. عند اكتشاف حالات عالية من الاضطراب، يحفز هذا النظام الانتباه البصري عبر الطبقات الوسيطة الحاسمة، مما يعيد ربط عملية التفكير بالمدخلات البصرية.

علاوة على ذلك، نقدم آلية الانعكاس الإلزامية (Forced Reflection Mechanism - FRM)، وهي استراتيجية تعديل المسار التي تعطل الجمود المعرفي عن طريق تحفيز التفكير حول نقاط الانقسام المعرفية عالية الاضطراب. هذه الآلية تشجع على التحقق من الخطوات التالية مقابل المدخلات البصرية، مما يترجم تدخلات التحيز الخارجية إلى قدرة داخلية لتقليل الهلاوس.