في عالم الذكاء الاصطناعي، تشهد نماذج اللغة والبث الصوتي استخدامًا متزايدًا، ولكن أداء هذه النماذج يتأثر بشكل كبير بالفجوة بين تجسيدات الصوت والنص. في هذا السياق، تمت الإشارة إلى مجموعة من الفرضيات مثل تأثير الـ 'cone effect' وكفاءات المعلومات وعدم توازن الأبعاد، لكن هذه النظريات لم تُفحص بشكل كافٍ في المجال الصوتي.
وفي استجابة لهذه التحديات، تم تقديم فكرة جديدة تُدعى COMET (تنظيم مساحة المفاهيم وشرح الفجوة بين الوسائط باستخدام التحويل PLS-SVD). هذه التقنية تستخدم إطار عمل جديد يسمى تحليل القيمة الفردية الجزئية (Partial Least Squares Singular Value Decomposition) لتحليل وإيضاح الفجوة بين الصوت والنص.
تظهر نتائج COMET أن مجموعة ضئيلة من المحاور، التي تلتقط المفاهيم المشتركة، هي التي تسهم بشكل كبير في حساب التشابه، بينما يمثل المكون المتوسطي جزءًا فقط من الفجوة. وبناءً على هذه الرؤية، تم اقتراح طريقة بسيطة تعتمد على تقليص طيفي يساعد في تقليل الفجوة بين الوسائط دون الحاجة إلى تدريب مكلف.
تتيح هذه الطريقة معالجة التسميات الصوتية بنجاح بشكل ذاتي، مما يساهم في تحسين الأداء في مهام الاسترجاع وإضافة التسميات، مع تقليل الأبعاد بشكل جوهري دون التأثير على الجودة.
COMET: استكشاف الفجوة بين الصوت والنص في نماذج التعلم المتعدد الوسائط بطريقة جديدة!
تقدم دراسة جديدة تقنية COMET لتحليل الفجوة بين الصوت والنص في نماذج التفاعل المتعدد الوسائط. تتيح هذه التقنية تحسين تجربة الفهم الصوتي دون الحاجة إلى تدريب مكلف.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
