HiDe: إعادة التفكير في أسلوب التكبير في نماذج اللغات متعددة الوسائط العالية الدقة

Q: ما هو موضوع مقال "HiDe: إعادة التفكير في أسلوب التكبير في نماذج اللغات متعددة الوسائط العالية الدقة"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "HiDe: إعادة التفكير في أسلوب التكبير في نماذج اللغات متعددة الوسائط العالية الدقة" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

تخطو نماذج اللغات متعددة الوسائط (MLLMs) خطوات كبيرة في فهم الصور، ولكن أداؤها على الصور عالية الدقة لا يزال دون المستوى المطلوب. بينما يُعزى هذا القصور في الأداء تقليدياً إلى قيود الإدراك، فإن دراسة جديدة تستعرض إطار عمل مبتكر يُعرف باسم HiDe، والذي يقدم رؤية جديدة لحل هذه المشكلة.

تظهر أبحاث HiDe أن السبب الرئيسي وراء ضعف أداء MLLMs ليس بحجم الكائنات الصغيرة بل بالتداخلات الخلفية المعقدة. في سلسلة من التجارب، تم تحليل عملية "التكبير" من خلال إطار العمل المعروف باسم "Token-wise Attention Decoupling" (TAD)، الذي يهدف إلى فصل رموز الأسئلة وتحديد الرموز الرئيسية للمعلومات.

بعد ذلك، يتم استخدام "Layout-Preserving Decoupling" (LPD) لفصل هذه المناطق عن الخلفية، مما يسمح بإعادة بناء تمثيل مكثف يحافظ على التخطيطات المكانية الأساسية بينما يزيل التداخل الخلفي.

تهاجم HiDe المشكلة بشكل جذري، مما يجعلها تضع معايير جديدة على منصات مثل V*Bench و HRBench4K و HRBench8K، حيث حققت نتائج مذهلة وصلت إلى 92.1% و91.6% على هذه المنصات، متفوقة حتى على الأساليب الأخرى المعتمدة على التعلم المعزز. وبالإضافة إلى ذلك، بعد عملية تحسين، تستهلك HiDe 75% أقل من الذاكرة مقارنة بأساليب التدريب السابقة.

يمكنكم الوصول إلى الشيفرة المصدرية لهذه الابتكارات عبر [رابط_المقال].

HiDe: إعادة التفكير في أسلوب التكبير في نماذج اللغات متعددة الوسائط العالية الدقة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

شراكة غامضة: مؤسس Anthropic يكشف عن تعاون مع إدارة ترامب حول مشروع Mythos!

مؤتمر StrictlyVC في سان فرانسيسكو: فرصة ذهبية للالتقاء بقادة الصناعة!

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!