تعتبر الهلاوس في نماذج اللغة الصوتية الكبيرة (Speech Large Language Models) من التحديات الكبيرة التي تواجه مستخدمي هذه التقنية، حيث تشكل مخاطر كبيرة في دقة النتائج المخرجة. غالبًا ما تعتمد طرق الكشف التقليدية على مخرجات معيارية يصعب الحصول عليها، مما يحد من فعاليتها.
في دراسة جديدة، تم استكشاف أربعة مقاييس مستمدة من الانتباه: **نسبة الصوت (AUDIORATIO)**، **تناسق الصوت (AUDIOCONSISTENCY)**، **حداثة الصوت (AUDIOENTROPY)**، و**حداثة النص (TEXTENTROPY)**، والتي تم تصميمها للكشف عن الأنماط غير الطبيعية المرتبطة بالهلاوس. تم تدريب مصنفات بسيطة تعتمد على الانحدار اللوجستي باستخدام هذه الميزات للحصول على كشف فعال في زمن الاستدلال.
في اختبارات الإنجاز على مهام التعرف التلقائي على الكلام (ASR) والترجمة من الكلام إلى نص، أثبتت النتائج على نماذج **Qwen-2-Audio** و**Voxtral-3B** تفوق نهجنا مقارنة بالخوارزميات السابقة، حيث حققنا تحسينات تصل إلى +0.23 PR-AUC. كما أظهرنا أن الأداء الجيد يمكن تحقيقه باستخدام حوالي 100 رأس من رؤوس الانتباه، مما عزز القدرة على تعميم النتائج في أنماط الشبكات الصوتية المختلفة.
تسلط النتائج الضوء على أهمية الأنماط الانتباهية كأداة قيّمة في كشف الهلاوس في نماذج اللغة الصوتية، على الرغم من أن فعالية هذه الأنماط تعتمد على النموذج وتحتاج إلى تدريبٍ مخصص وفقًا للمهام المعينة.
كشف الهلاوس في نماذج اللغة الصوتية: تقنية مبتكرة للتحليل الدقيق
تقدم دراسة جديدة حلولًا كفء لرصد الهلاوس في نماذج اللغة الصوتية عن طريق قياس الأنماط المعتمدة على الانتباه. الاستنتاجات تشير إلى تحسن ملحوظ في الأداء، مما يعد تقدمًا مثيرًا في هذا المجال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
