تتقدم التكنولوجيا الحديثة بخطى ثابتة نحو دمج مجالات متعددة لفهم أكبر. من بين أبرز هذه الابتكارات تأتي نماذج اللغة متعددة الوسائط (MLLMs)، التي تم تصميمها بفاعلية لدمج النصوص والصوت لتحليل السياق في الحوارات المعقدة. ولكن، رغم كل هذا التقدم، تظل الآليات الداخلية التي تؤثر من خلالها هذه النماذج على سلوكها غير واضحة.

تستند التقنيات الحالية، مثل قيم شابلي (Shapley Values)، إلى إطار عمل قوي يحافظ على تفسير موثوق في معالجة اللغة الطبيعية (NLP) مستندةً إلى النصوص. ومع ذلك، فإن توسيع هذا الإطار ليشمل البيانات متعددة الوسائط يواجه العديد من التحديات، منها الاعتماديات بين القنوات والتعقيدات التي يخلقها هيكل الحوار المدقق، بالإضافة إلى التعقيد الحسابي المرتفع الذي يتطلبه تمثيل الصوت الكثيف.

في هذا العمل، قمنا بتطوير توسيع متعدد الوسائط لنظام قيم شابلي، حيث نظرنا إلى الرموز النصية المنفصلة والشرائح الصوتية المتوافقة كمميزات تعاونية. لضمان الجدوى الحسابية، اعتمدنا مجموعة من استراتيجيات التقدير الفعالة، بما في ذلك حساب قيم شابلي الدقيقة للمدخلات ذات الأبعاد المنخفضة، واقترابات قائمة على أخذ العينات مثل طرق مونت كارلو والتوزيع الأمثل نيمان.

ولحل التحديات المتمثلة في عدم تطابق جودة البيانات بين الوسائط، نقدم طريقة جديدة تسمى محاذاة صوتية موجهة باستخدام الطيف (SGPA)، والتي تقوم بربط تدفقات الصوت عالية التردد بمقاطع قابلة للتفسير ومتوافقة مع الكلمات.

تتميز مساهمتنا بوجهيها: الأول هو توفير حزمة برمجية مفتوحة المصدر ونموذج تفاعلي لرؤية البيانات متعددة الوسائط، والثاني هو تقييم إطارنا باستخدام مجموعات محددة من البيانات مثل مجموعة VoiceBench وInfinity Instruct، ما يبرز أهمية المدخلات في تقلب النسب ويظهر فشل بعض البروكسيات في التقدير.

إن هذا التقدم يفتح آفاقاً جديدة لفهم كيف يمكن لنماذج الذكاء الاصطناعي التفاعل مع بيئات متعددة اللغات والثقافات، مما يشجع مطوري التطبيقات والباحثين على استكشاف المزيد.