تعتبر الهلاوس في نماذج اللغة الصوتية الكبيرة (Speech Large Language Models) من التحديات الكبيرة التي تواجه مستخدمي هذه التقنية، حيث تشكل مخاطر كبيرة في دقة النتائج المخرجة. غالبًا ما تعتمد طرق الكشف التقليدية على مخرجات معيارية يصعب الحصول عليها، مما يحد من فعاليتها.

في دراسة جديدة، تم استكشاف أربعة مقاييس مستمدة من الانتباه: **نسبة الصوت (AUDIORATIO)**، **تناسق الصوت (AUDIOCONSISTENCY)**، **حداثة الصوت (AUDIOENTROPY)**، و**حداثة النص (TEXTENTROPY)**، والتي تم تصميمها للكشف عن الأنماط غير الطبيعية المرتبطة بالهلاوس. تم تدريب مصنفات بسيطة تعتمد على الانحدار اللوجستي باستخدام هذه الميزات للحصول على كشف فعال في زمن الاستدلال.

في اختبارات الإنجاز على مهام التعرف التلقائي على الكلام (ASR) والترجمة من الكلام إلى نص، أثبتت النتائج على نماذج **Qwen-2-Audio** و**Voxtral-3B** تفوق نهجنا مقارنة بالخوارزميات السابقة، حيث حققنا تحسينات تصل إلى +0.23 PR-AUC. كما أظهرنا أن الأداء الجيد يمكن تحقيقه باستخدام حوالي 100 رأس من رؤوس الانتباه، مما عزز القدرة على تعميم النتائج في أنماط الشبكات الصوتية المختلفة.

تسلط النتائج الضوء على أهمية الأنماط الانتباهية كأداة قيّمة في كشف الهلاوس في نماذج اللغة الصوتية، على الرغم من أن فعالية هذه الأنماط تعتمد على النموذج وتحتاج إلى تدريبٍ مخصص وفقًا للمهام المعينة.