في عالم الذكاء الاصطناعي المتسارع، تظهر تكنولوجيا جديدة تعيد تشكيل مفاهيم فهم الصور، وهي MoDA (Modulation Adapter). تستفيد هذه التكنولوجيا من نجاح نماذج اللغات متعددة الوسائط (MLLMs) التي حققت نتائج مذهلة في تنفيذ المهام التعليمة بفضل دمجها بين المشفرات البصرية المدربة مسبقًا والنماذج اللغوية الكبيرة (LLMs).
ومع ذلك، وجدت الدراسات أن الأساليب الحالية تواجه صعوبات عند محاولة تمييز التفاصيل الدقيقة في الصورة بسبب تداخل السـمات في تمثيلات الأجزاء البصرية. هنا يدخل دور MoDA، وهي وحدة خفيفة الوزن تعزز من أسلوب ربط التعليمات بالمعلومات البصرية.
تعمل MoDA من خلال تعديل قنوات المعلومات بدلاً من التركيز على مستوى الرموز، مما يمنح نماذج التعلم القدرة على ضبط الدقة والتفاصيل المرتبطة بالتعليمات. تضيف MoDA آلية جديدة تعمل على تطبيق الانتباه المتقاطع بين التعليمات اللغوية والميزات البصرية المتوافقة، مما ينتج أقنعة تعديل ديناميكية لا تتطلب تغييرات في الهيكل الأساسي أو إشراف إضافي.
تم اختبار MoDA عبر اثني عشر معياراً من ضمنها أسئلة بصرية، reasoning-centric vision، وكشف الخيالات، بما في ذلك المعايير الحديثة لعام 2024 (مثل MMVP وCV-Bench وMMStar وRealWorldQA) على ثلاث هياكل نماذج MLLM، حيث قدمت تقنية MoDA نتائج إيجابية قوية، منها زيادة قدرها 12 نقطة في معيار MMVP لنموذج LLaVA-1.5.
باختصار، تثبت MoDA أن تحقق الإنجازات عبر جميع العائلات النماذج الرئيسية، مما يساهم في تحسين دقة معالجة البيانات البصرية مع الحفاظ على كفاءة النظام. يمكنكم الاطلاع على الكود البرمجي على GitHub لتبدأوا استكشاف هذه التقنية الرائدة بأنفسكم.
موضة جديدة في عالم الذكاء الاصطناعي: MoDA تعيد صياغة طريقة فهم الصور في نماذج اللغات الضخمة!
تقدم MoDA (Modulation Adapter) تقنية جديدة لتحسين عملية المعالجة البصرية في نماذج اللغات متعددة الوسائط، مما يمكّنها من فهم المزيد من التفاصيل الدقيقة. تعزز هذه التقنية الاستخدام الفعال للميزات البصرية من خلال تعديل قنوات المعلومات بتوجيه من التعليمات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
