في عالم الذكاء الاصطناعي المتنامي، تعتبر نماذج التحويل متعددة الحواس (Multimodal Transformers) من أحدث ما توصلت إليه هذه التقنية. غير أن السؤال المحوري الذي يطرح نفسه هنا هو: كيف تجري هذه النماذج تنبؤاتها بدون توضيح كيفية دعم المعلومات المختلفة للقرار النهائي؟

لحل هذه المشكلة، تم تطوير أداة مبتكرة تدعى FL-I2MoE. تعمل هذه الأداة على فصل الأدلة المتفردة، والتكامليّة، والاحتياطية على مستوى الخصائص، مما يساعد الباحثين والممارسين على فهم كيف تشير كل ميزة إلى القرار. هذا النهج يعطي صورة أوضح حول كيفية تفاعل الميزات المختلفة مع بعضها، ويعتبر خطوة مهمة في تطوير الذكاء الاصطناعي القابل للتفسير.

بالإضافة إلى ذلك، تم تقديم سلسلة من البرمجيات لتعزيز هذه العملية، بما في ذلك تحليل الشعور باستخدام طريقة إدراك التدرجات (Attribution) وتقنية تقليم TOP-K% للاختبار.

الأداء الفائق لهذه التقنية ظهر جليًا من خلال تجارب أُجريت على ثلاثة معايير رئيسية (MMIMDb، ENRICO، وMMHS150K)، حيث أظهرت FL-I2MoE أنماطًا أكثر تركيزًا من الأهمية مقارنة بالطريقة التقليدية.

إجمالًا، يفتح هذا البحث أفقًا جديدًا لفهم الذكاء الاصطناعي وكيفية استخدامه بشكل أكثر فعالية، ما يجعلنا نتساءل عن إمكانيات المستقبل في هذا المجال. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!