تخطو [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) [متعددة الوسائط](/tag/متعددة-الوسائط) ([MLLMs](/tag/mllms)) خطوات كبيرة في [فهم](/tag/فهم) الصور، ولكن أداؤها على [الصور](/tag/الصور) عالية [الدقة](/tag/الدقة) لا يزال دون المستوى المطلوب. بينما يُعزى هذا القصور في [الأداء](/tag/الأداء) تقليدياً إلى [قيود](/tag/قيود) الإدراك، فإن [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) تستعرض إطار [عمل](/tag/عمل) مبتكر يُعرف باسم HiDe، والذي يقدم [رؤية](/tag/رؤية) جديدة لحل هذه المشكلة.
تظهر [أبحاث](/tag/أبحاث) [HiDe](/tag/hide) أن السبب الرئيسي وراء ضعف [أداء](/tag/أداء) [MLLMs](/tag/mllms) ليس بحجم الكائنات الصغيرة بل بالتداخلات الخلفية المعقدة. في سلسلة من التجارب، تم [تحليل](/tag/تحليل) عملية "التكبير" من خلال [إطار العمل](/tag/إطار-العمل) المعروف باسم "Token-wise [Attention](/tag/attention) Decoupling" (TAD)، الذي يهدف إلى فصل [رموز](/tag/رموز) الأسئلة وتحديد الرموز الرئيسية للمعلومات.
بعد ذلك، يتم استخدام "Layout-Preserving Decoupling" (LPD) لفصل هذه المناطق عن الخلفية، مما يسمح بإعادة [بناء](/tag/بناء) تمثيل مكثف يحافظ على التخطيطات المكانية الأساسية بينما يزيل التداخل الخلفي.
تهاجم [HiDe](/tag/hide) المشكلة بشكل جذري، مما يجعلها تضع [معايير جديدة](/tag/[معايير](/tag/معايير)-جديدة) على [منصات](/tag/منصات) مثل V*Bench و HRBench4K و HRBench8K، حيث حققت نتائج مذهلة وصلت إلى 92.1% و91.6% على هذه المنصات، متفوقة حتى على الأساليب الأخرى المعتمدة على [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز). وبالإضافة إلى ذلك، بعد عملية تحسين، تستهلك [HiDe](/tag/hide) 75% أقل من [الذاكرة](/tag/الذاكرة) مقارنة بأساليب [التدريب](/tag/التدريب) السابقة.
يمكنكم الوصول إلى الشيفرة المصدرية لهذه [الابتكارات](/tag/الابتكارات) [عبر](/tag/عبر) [رابط_المقال].
HiDe: إعادة التفكير في أسلوب التكبير في نماذج اللغات متعددة الوسائط العالية الدقة
تمثل HiDe نقلة نوعية في معالجة الصور عالية الدقة بواسطة نماذج اللغات متعددة الوسائط، حيث تقدم إطار عمل مبتكر يساهم في تحسين الأداء وإزالة التداخلات الخلفية. تعرف على كيفية تحقيقها نتائج مذهلة وتوفير في الذاكرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
