في الوقت الذي حققت فيه نماذج اللغة الصوتية العملاقة (Large Audio-Language Models) نجاحاً ملحوظاً في مجالات متعددة، تبقى قضية الهلوسة، حيث تقوم هذه النماذج بتوليد استجابات غير صحيحة تركيبياً أو غير مدعومة صوتياً، غير مستكشفة بشكل كافٍ في هذا السياق. معظم المعايير الحالية تركز على النصوص أو الرؤية، بينما تقتصر الدراسات المتعلقة بالصوت على نطاق محدود وقدرة تشخيصية ضعيفة.
لذا، تم تقديم **هالو أوديو** كأول معيار شامل مصمم خصيصاً لتقييم الهلوسة في مجالات الكلام، الأصوات البيئية، والموسيقى. يتكون هذا المعيار من أكثر من 5000 زوج من الأسئلة والأجوبة المعتمدة من قبل بشر، ويغطي أنواعاً متنوعة من المهام، بما في ذلك الأحكام الثنائية، الاستدلال متعدد الخيارات، والتأكد من الصفات، بالإضافة إلى أسئلة مفتوحة.
لتحفيز الهلوسة بصورة منهجية، تم تصميم أسئلة معادية وظروف صوتية مختلطة. بالإضافة إلى دقة النتائج، يشمل بروتوكول التقييم لدينا قياس معدل الهلوسة، تحيز نعم/لا، تحليل نوع الخطأ، ومعدل الرفض، مما يمكن من تحليل دقيق لأنماط الفشل في نماذج اللغة الصوتية العملاقة.
لقد قمنا بتقييم مجموعة واسعة من النماذج مفتوحة المصدر والتجارية، مما يوفر مقارنة شاملة لأول مرة عبر مجالات الكلام، الصوت، والموسيقى. تكشف نتائجنا عن نقص ملحوظ في الأسس الصوتية، والتفكير الزمني، وفهم سمات الموسيقى، مما يبرز الحاجة إلى نماذج موثوقة وقوية.
هالو أوديو: معيار شامل لاكتشاف الهلوسة في نماذج اللغة الصوتية العملاقة
تم تقديم هالو أوديو كأول معيار شامل لتقييم الهلوسة في نماذج اللغة الصوتية، مما يعزز فهمنا للتحديات الحالية في هذا المجال. يحتوي المعيار على أكثر من 5 آلاف زوج من الأسئلة والأجوبة الموثقة بشرياً.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
