تخطو [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) [متعددة الوسائط](/tag/متعددة-الوسائط) ([MLLMs](/tag/mllms)) خطوات كبيرة في [فهم](/tag/فهم) الصور، ولكن أداؤها على [الصور](/tag/الصور) عالية [الدقة](/tag/الدقة) لا يزال دون المستوى المطلوب. بينما يُعزى هذا القصور في [الأداء](/tag/الأداء) تقليدياً إلى [قيود](/tag/قيود) الإدراك، فإن [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) تستعرض إطار [عمل](/tag/عمل) مبتكر يُعرف باسم HiDe، والذي يقدم [رؤية](/tag/رؤية) جديدة لحل هذه المشكلة.

تظهر [أبحاث](/tag/أبحاث) [HiDe](/tag/hide) أن السبب الرئيسي وراء ضعف [أداء](/tag/أداء) [MLLMs](/tag/mllms) ليس بحجم الكائنات الصغيرة بل بالتداخلات الخلفية المعقدة. في سلسلة من التجارب، تم [تحليل](/tag/تحليل) عملية "التكبير" من خلال [إطار العمل](/tag/إطار-العمل) المعروف باسم "Token-wise [Attention](/tag/attention) Decoupling" (TAD)، الذي يهدف إلى فصل [رموز](/tag/رموز) الأسئلة وتحديد الرموز الرئيسية للمعلومات.

بعد ذلك، يتم استخدام "Layout-Preserving Decoupling" (LPD) لفصل هذه المناطق عن الخلفية، مما يسمح بإعادة [بناء](/tag/بناء) تمثيل مكثف يحافظ على التخطيطات المكانية الأساسية بينما يزيل التداخل الخلفي.

تهاجم [HiDe](/tag/hide) المشكلة بشكل جذري، مما يجعلها تضع [معايير جديدة](/tag/[معايير](/tag/معايير)-جديدة) على [منصات](/tag/منصات) مثل V*Bench و HRBench4K و HRBench8K، حيث حققت نتائج مذهلة وصلت إلى 92.1% و91.6% على هذه المنصات، متفوقة حتى على الأساليب الأخرى المعتمدة على [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز). وبالإضافة إلى ذلك، بعد عملية تحسين، تستهلك [HiDe](/tag/hide) 75% أقل من [الذاكرة](/tag/الذاكرة) مقارنة بأساليب [التدريب](/tag/التدريب) السابقة.

يمكنكم الوصول إلى الشيفرة المصدرية لهذه [الابتكارات](/tag/الابتكارات) [عبر](/tag/عبر) [رابط_المقال].