في عالم نماذج اللغة الصوتية الكبيرة (Large Audio Language Models - LALMs)، لا يزال هناك تحدٍ كبير يتمثل في قدرتها على فهم المشاهد الصوتية المعقدة. فقد أظهرت الدراسات أن هذه النماذج تعاني من صعوبة في الحفاظ على الأدلة الصوتية ذات الصلة قبل البدء في عملية التفكير. هذا الخطأ يُعرف بأنه "عنق الزجاجة للأدلة" (evidence bottleneck)، حيث تعاني الأنظمة المتطورة من عجز أكبر في استخراج الأدلة الصوتية مقارنة بقدرتها على التفكير المنطقي بعد ذلك.
لكن حان الوقت للتغيير! يُقدم نظام إيفّا (EvA)، الذي يعتمد على بنية ثنائية المسار تهدف إلى تعزيز الحفاظ على الأدلة الصوتية من خلال التجميع الهرمي والدمج المتزامن غير المضغوط.
ليس ذلك فحسب، بل تم أيضاً إنشاء مجموعة تدريب ضخمة تحت اسم EvA-Perception، تضم حوالي 54 ألف تعليق مرتّب حسب الأحداث و500 ألف زوج من الأسئلة والأجوبة المستندة إلى الأدلة. وعند تطبيق بروتوكول موحد يعمل دون تكوين سابق (zero-shot protocol)، سجل نظام إيفّا أفضل النتائج في اختبارات "الإدراك" (Perception) على ثلاث مجموعات: MMAU وMMAR وMMSU، مع تحقيق أكبر تحسن في الأقسام التي تركز على الإدراك.
كما أظهرت التقييمات البشرية على التعليقات المفتوحة تحسناً كبيراً في جودة التغطية الصوتية الدقيقة. تدعم هذه النتائج الفرضية التي تقول بأن فهم الصوتيات الأقوى يعتمد على الحفاظ على الأدلة الصوتية قبل بدء التفكير.
إذا كنت مهتماً بتفاصيل هذا المشروع المبتكر، يمكنك استكشاف المزيد على الموقع الرسمي لإيفّا.
إيفّا: ثورة في فهم الصوتيات من خلال التركيز على الأدلة في نماذج اللغة الصوتية
يقدم نظام إيفّا (EvA) نموذجاً مبتكراً لفهم الأصوات يعتمد على الحفاظ على الأدلة الصوتية قبل بدء عملية التفكير. يحقق النظام نتائج غير مسبوقة في معالجة المشاهد الصوتية المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
