تمثل الكاميرات المعتمدة على الأحداث نقلة نوعية في تحسين دقة الكشف في مجال رؤية الكمبيوتر، حيث تقوم بالتقاط التغيرات الطفيفة في الإضاءة بدقة زمنية عالية ومجال ديناميكي واسع، متجاوزةً بذلك قيود الإطارات التقليدية لصور RGB. ولكن، كانت التقنيات السابقة الخاصة بالدمج المتعدد الأنماط تعاني من صعوبة في التعامل مع التباين الفطري بين إطارات RGB وتدفقات الأحداث، مما يؤدي إلى تضخيم الضوضاء أو دمج الميزات الزائدة أثناء عملية الدمج.
في هذا الإطار، يقدم باحثو هذا المجال نموذج CMTFormer، الذي يمثل طفرة حقيقية في طريقة دمج البيانات المتعددة. يعتمد هذا النموذج على نظام تفاعل معلوماتي متدرج يجمع بين معلومات RGB والأحداث بكفاءة عالية، مما يتيح تعاونًا مستقرًا بين الأنماط المختلفة.
يتميز CMTFormer بتصميمه المبتكر، حيث يبدأ بمكون يسمى Shallow Alignment Module (SAM) الذي يعمل على دمج الميزات الأساسية لصور RGB والأحداث، مما يقلل من الفروقات في خصائص البيانات ويمنع دخول المعلومات الضوضائية. ثم ينتقل إلى Cross-modal Enhancement Module (CEM) الذي يستخدم معلومات النسيج والحواف لإنتاج ميزات متوسطة المستوى معززة بشكل متبادل.
وفي النهاية، يأتي Learnable Deep Fusion Module (LDFM) ليقوم بتجميع المعلومات عالية المستوى من خلال أوزان قابلة للتعلم، مما يمكّن الشبكة من دمج دلائل RGB والأحداث بطريقة ديناميكية.
تم إجراء تجارب موسعة على معايير الكشف عن الأجسام المعتمدة على الأحداث مثل DSEC-Detection وPKU-DAVIS-SOD، حيث تفوق نموذج CMTFormer بشكل ثابت على نظرائه في الإعدادات الأحادية والمتعددة الأنماط، مما يعكس بوضوح فعالية هذا النموذج.
تدعو الدراسة الباحثين لمتابعة التطورات المستقبلية، حيث سيتم نشر الأكواد المتعلقة بالنموذج قريبًا، مما يبشر بمزيد من الابتكارات في استخدام تقنيات رؤية الكمبيوتر.
CMTFormer: اندماج ثوري بين تقنية المحولات والمعلومات المتدرجة لتحسين كشف الأجسام في الأحداث RGB
تقدم الدراسة الجديدة نموذج CMTFormer الذي يدمج بين معلومات RGB وتغيرات الضوء بمستوى عالٍ من الدقة والكفاءة. يعد هذا تطورًا مهمًا في تقنيات الكشف عن الأجسام، حيث يعزز التعاون بين أنظمة الإدخال المتعددة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
