تخطو نماذج اللغات متعددة الوسائط (MLLMs) خطوات كبيرة في فهم الصور، ولكن أداؤها على الصور عالية الدقة لا يزال دون المستوى المطلوب. بينما يُعزى هذا القصور في الأداء تقليدياً إلى قيود الإدراك، فإن دراسة جديدة تستعرض إطار عمل مبتكر يُعرف باسم HiDe، والذي يقدم رؤية جديدة لحل هذه المشكلة.

تظهر أبحاث HiDe أن السبب الرئيسي وراء ضعف أداء MLLMs ليس بحجم الكائنات الصغيرة بل بالتداخلات الخلفية المعقدة. في سلسلة من التجارب، تم تحليل عملية "التكبير" من خلال إطار العمل المعروف باسم "Token-wise Attention Decoupling" (TAD)، الذي يهدف إلى فصل رموز الأسئلة وتحديد الرموز الرئيسية للمعلومات.

بعد ذلك، يتم استخدام "Layout-Preserving Decoupling" (LPD) لفصل هذه المناطق عن الخلفية، مما يسمح بإعادة بناء تمثيل مكثف يحافظ على التخطيطات المكانية الأساسية بينما يزيل التداخل الخلفي.

تهاجم HiDe المشكلة بشكل جذري، مما يجعلها تضع معايير جديدة على منصات مثل V*Bench و HRBench4K و HRBench8K، حيث حققت نتائج مذهلة وصلت إلى 92.1% و91.6% على هذه المنصات، متفوقة حتى على الأساليب الأخرى المعتمدة على التعلم المعزز. وبالإضافة إلى ذلك، بعد عملية تحسين، تستهلك HiDe 75% أقل من الذاكرة مقارنة بأساليب التدريب السابقة.

يمكنكم الوصول إلى الشيفرة المصدرية لهذه الابتكارات عبر [رابط_المقال].