تعتبر هلاوس تحويل الكلام إلى نص (ASR) ظاهرة شائعة ومقلقة في نماذج الذكاء الاصطناعي، حيث تُنتَج نصوص متناسقة عن أصوات غير كلامية، مما يؤدي إلى نتائج غير دقيقة في التطبيقات العملية. في هذا الإطار، تمثل تقنية Whisper واحدًا من النماذج الرائدة، حيث تنطوي على مجموعة من التحديات الكثيرة، بما في ذلك مشكلة الهلوسة.
تناول فريق الباحثين دراسة جديدة تستهدف الكشف عن وتحجيم الهلوسة التي تحدث أثناء عمليات تحويل الصوت إلى نص. من خلال تحليل التمثيلات الداخلية لنموذج Whisper، قاموا باستخراج تفعيل وحدة الصوت (audio encoder activations) وتقييم فضاءين تمثيليين مختلفين: التفاعلات الخام لنموذج Whisper وخصائص العمق النادرة (Sparse AutoEncoder (SAE)).
أظهرت النتائج أن كلا الفضاءين يسجلان معلومات تفصيلية مرتبطة بالهلوسة، حيث يكون التركيز على مجموعة فرعية نادرة من الخصائص، وازدياد الاتجاه نحو الطبقات الأعمق من الوحدة المشفرة.
اقترح الباحثون استراتيجيتين للتوجيه: توجيه فضاء التفعيلات (activation-space steering) وتوجيه فضاء الخصائص n-rare (SAE latent-space steering). وقد أظهرت النتائج أن التوجيه المعتمد على SAE أدّى إلى تقليل معدل الهلوسة من 72.63% إلى 14.11% بالنسبة لنموذج Whisper الصغير، ومن 86.88% إلى 27.33% لنموذج Whisper الكبير - النسخة الثالثة - على مجموعة الاختبار الكاملة غير الكلامية، مع بعض الانخفاضات البسيطة في دقة الكلام.
هذا التطور يعد خطوة مهمة نحو تحسين أداء نماذج تحويل النصوص، ويقترب من فعالية الطرق المعتمدة على تحسين النموذج (fine-tuning).
كفاح ضد الهلوسة: استراتيجيات جديدة لتحسين دقة نموذج Whisper في تحويل النصوص
يستعرض هذا المقال استراتيجيات مبتكرة للكشف عن الهلوسة في نموذج Whisper، أحد أشهر نماذج تحويل الكلام إلى نص. النتائج تشير إلى انخفاض كبير في معدل الهلوسة، مما يعزز فعالية هذا النموذج في التعامل مع البيانات الصوتية غير الكلامية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
