في السنوات الأخيرة، حققت [نماذج [اللغات](/tag/اللغات) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الكبيرة) [المتعددة الوسائط](/tag/المتعددة-الوسائط) (Multimodal Large Language [Models](/tag/models) - [MLLMs](/tag/mllms)) تقدماً ملحوظاً بفضل [نماذج](/tag/نماذج) فعالة دمجت بين [المعلومات](/tag/المعلومات) المرئية والنصية. تعتمد هذه [النماذج الأساسية](/tag/[النماذج](/tag/النماذج)-الأساسية) على أسلوب الموصلات الذي يربط الميزات المرئية بتسلسل النصوص، مما يتيح [تحقيق](/tag/تحقيق) [توافق](/tag/توافق) واستدلال متعدد الوسائط ضمن هيكلية [توليد](/tag/توليد) موحدة.
ومع ذلك، كشفت [التجارب](/tag/التجارب) التي أُجريت عددًا من [القيود](/tag/القيود) الرئيسية. أولاً، رغم أن [المعلومات](/tag/المعلومات) المرئية تعتبر الأساس في MLLMs، إلا أنها تُعامل على قدم المساواة مع الرموز النصية مما يقلل من إسهامها الفريد. ثانياً، مع زيادة طول [العملية](/tag/العملية) التوليدية، وبالأخص ضمن نافذة [سياقية](/tag/سياقية) محدودة، تبدأ اعتماد النموذج على [المعلومات](/tag/المعلومات) المرئية في التراجع، مما ينتج عنه تدهور في [التوافق](/tag/التوافق) بين [اللغة](/tag/اللغة) والصورة.
للتغلب على هذه التحديات، نقدم [نموذج](/tag/نموذج) [Vision Inference Former](/tag/vision-inference-former) (VIF)، وهو وحدة [معمارية](/tag/معمارية) خفيفة الوزن تعمل على إنشاء جسر مباشر بين التمثيلات المرئية النقية ومساحة خرج النموذج. يضمن VIF حقن الدلالات المرئية باستمرار خلال مرحلة [فك](/tag/فك) الشيفرة، مما يحافظ على ارتباط النموذج بالمحتوى المرئي أثناء [التوليد](/tag/التوليد).
قمنا بإجراء [تجارب](/tag/تجارب) على 14 مهمة معيارية تشمل [الاستدلال](/tag/الاستدلال) العام، [التعرف](/tag/التعرف) الضوئي على الحروف، [فهم](/tag/فهم) الجداول، والتقييم المرتكز على [الرؤية](/tag/الرؤية). أظهرت النتائج التجريبية أن VIF يحسن [أداء النموذج](/tag/[أداء](/tag/أداء)-النموذج) باستمرار [عبر](/tag/عبر) هياكل [معمارية](/tag/معمارية) متنوعة مع إدخال عبء إضافي ضئيل.
هذا التطور يعد بداية جديدة لنماذج [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) [المتعددة الوسائط](/tag/المتعددة-الوسائط). فما رأيكم في هذا [الابتكار](/tag/الابتكار)؟ هل ترون أن تحديد موضع [المعلومات](/tag/المعلومات) المرئية سيثير ثورة جديدة في هذا المجال؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!
الإبداع البصري: كيف يعزز نموذج Vision Inference Former (VIF) دقة الذكاء الاصطناعي المتعدد الوسائط
كشف الباحثون عن تطوير نموذج Vision Inference Former (VIF) الذي يعزز التكامل بين المعلومات المرئية والنصية في نماذج الذكاء الاصطناعي المتعدد الوسائط. هذا الابتكار يعد بحل المشكلات الأساسية المرتبطة بفقدان الدقة والتوافق بين اللغة والصورة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←# Vision Inference Former# الذكاء الاصطناعي# نماذج لغوية متعددة الوسائط# التعلم العميق# أبحاث الذكاء الاصطناعي
جاري تحميل التفاعلات...
