شهد التعلم المتعدد الوسائط (Multimodal Learning) تقدمًا ملحوظًا في السنوات الأخيرة، خاصة مع دمج نماذج تعتمد على الانتباه (Attention-based Models). هذا التطور أدى إلى تحسينات كبيرة في الأداء عبر مجموعة متنوعة من المهام. بالتزامن مع هذا التقدم، زادت الحاجة إلى الذكاء الاصطناعي القابل للتفسير (Explainable Artificial Intelligence - XAI) مما حفز نشوء جهات بحثية تهدف إلى تفسير العمليات المعقدة لاتخاذ القرار التي تتبناها هذه النماذج.
تقدم هذه المراجعة الأدبية الشاملة تحليلًا للأبحاث المنشورة بين يناير 2020 وأوائل 2024، حيث تركز على قابلية تفسير النماذج المتعددة الوسائط. نعرض الأدبيات عبر عدة أبعاد، منها بنية النموذج، الوسائط المعنية، خوارزميات الشرح، وطرق التقييم. تكشف تحليلاتنا أن معظم الدراسات تركز على نماذج الرؤية-اللغة والنماذج النصية فقط، حيث تُعتمد تقنيات الانتباه الأكثر شيوعًا للشرح.
ومع ذلك، فإن هذه الأساليب غالبًا ما تفشل في التقاط كامل تفاعلات الوسائط، وهي مشكلة تتعزز بسبب التباين المعماري عبر مجالات متعددة. من المهم أن نشير إلى أن طرق التقييم المتعلقة بالذكاء الاصطناعي القابل للتفسير في الإعدادات متعددة الوسائط تفتقر إلى النظام وعدم الاتساق والموثوقية، إلى جانب عدم اعترافها بالعوامل السياقية والإدراكية الخاصة بكل وسيلة.
لمعالجة هذه الفجوات، لا نقوم فقط بتجميع النتائج من الأعمال المحللة، بل ندمج أيضًا تحليلًا تكميليًا يستند إلى التطورات الحديثة والدافعة التي تعزز قابلية تفسير النماذج متعددة الوسائط. بناءً على هذه الرؤى، نقدم مجموعة شاملة من التوصيات التي تهدف إلى تعزيز الممارسات في تقييم وتقرير قابلية التفسير بشكل صارم وشفاف وموحد في أبحاث الذكاء الاصطناعي المتعدد الوسائط. هدفنا هو دعم الأبحاث المستقبلية في أنظمة الذكاء الاصطناعي المتعددة الوسائط الأكثر قابلية للتفسير والمساءلة، مع توضيح قابلية التفسير في أطرها.
كشف غموض التعلم المتعدد الوسائط: مراجعة شاملة لشرح نماذج التعلم باستخدام الانتباه
تتطور تقنيات التعلم المتعدد الوسائط بسرعة، مما يزيد من أهمية الفهم العميق لآليات اتخاذ القرار في النماذج. تقدم هذه المراجعة شاملة تحليلًا لجهود البحث في مجال الذكاء الاصطناعي القابل للتفسير في سياق نماذج تعتمد على الانتباه.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
