تعتبر مشكلة خيال الكائنات، التي تُعرف بتوليد كائنات غير صحيحة من الناحية الواقعية، تحدياً مستمراً في نماذج الرؤية-اللغة الكبيرة (Large Vision-Language Models). رغم أن هناك العديد من الطرق الحالية لمواجهة هذه المشكلة، إلا أنها غالباً ما تؤدي إلى التنازل عن كفاءة المعالجة أو استمرارية مساحة ميزات النموذج.

من خلال هذه المقالة، نقدم استراتيجية جديدة تعتمد على إعادة ترسيخ الانتباه بطريقة متكيفه، تعمل كآلية وزنية تتكيف بطريقة واعية للمناطق، مما يُتيح التصحيح الديناميكي للانحراف الدلالي دون الحاجة إلى تقنيات تقليص حادة.

تقوم الآلية الجديدة بحساب نقطة وسطية مقاومة للخارجية عبر رؤوس الانتباه المختلفة، مما ينشئ نقطة ربط مستقرة للتمثيلات البصرية. كما نستفيد من الخلاف بين رؤوس الانتباه المُعززة عبر المناطق لتحديد ميزانيات التدخل بشكل ديناميكي، مما يؤدي إلى تقليل تأثير المسارات المثيرة للخيال بطريقة سلسة.

تسهم هذه العملية في تصحيح عدم التوافق بين العناصر البصرية والدلالية دون فقدان سلاسة التوليد والمعايير اللغوية في النموذج، ما يجعل النتائج أكثر دقة وموثوقية.

عبر تقييمات شاملة على معايير متعددة الوسائط المعترف بها مثل CHAIR وPOPE وMME، أثبتت استراتيجيتنا فعاليتها، حيث خفضت بشكل كبير من كل من التخيلات على مستوى الجملة والفرد. هذه النتائج تُظهر Performance متفوقة تتخطى الأساليب الحديثة، مؤكدة على كفاءة وطبيعة الخوارزمية المبتكرة التي نقدمها. كما أنه من المتوقع أن يتم نشر الشيفرة البرمجية المعنية بشكل عام لتكون متاحة للجميع.