تحتل نماذج اللغة الكبيرة المدركة للصوت (Speech-aware Large Language Models - LLMs) مركز الصدارة في عالم الذكاء الاصطناعي، حيث تتيح إمكانية التعامل مع المدخلات الصوتية بشكل فعال. لكن رغم ذلك، تظل بعض الأسئلة مفتوحة حول قدرتها على التعرف بدقة على هوية المتحدثين. في دراسة جديدة، تم طرح بروتوكول قياس جديد غير معتمد على نموذج معين، يهدف إلى إنتاج درجات تحقق مستمرة لكل من النماذج المعتمدة على واجهات برمجية والنماذج مفتوحة الوزن.
استخدمت الدراسة مقاييس مثل درجات الثقة أو النسب اللوغاريتمية للرجحان من احتمالات الرموز ذات الإجابة بنعم/لا. أثبتت النتائج أن النماذج الحديثة المدركة للصوت تواجه تحديات كبيرة، حيث كانت دقة تحديد الهوية ضعيفة، مع معدلات خطأ فوق 20% في مجموعة بيانات VoxCeleb1.
لتحسين هذه النتائج، تم تقديم طريقة خفيفة لتعزيز قدرات نماذج LLM عن طريق إدخال ملامح صوتية متجمدة من نموذج ECAPA-TDNN من خلال تعديل مكاني مدروس، مما سمح بتدريب فقط محولات LoRA. وقد أثبت النموذج الجديد، المعروف باسم ECAPA-LLM، فعاليته في تقليص معدل الخطأ إلى 1.03% عند تطبيقه على VoxCeleb1-E، مما يقترب من أداء نظام تحديد هوية المتحدثين المخصص، مع الحفاظ على واجهة لغة طبيعية.
تعتبر هذه التطورات خطوة مهمة نحو تحسين تقنيات التعرف على المتحدثين باستخدام الذكاء الاصطناعي، مما يفتح آفاقاً جديدة لتطبيقات تفاعلية ومبتكرة. ما رأيكم في هذه التقنية الجديدة؟ هل ترون أن لديها القدرة على تغيير كيفية تحديد الهوية في المستقبل؟ شاركونا آرائكم في التعليقات.
تحقق الهوية بالاستناد إلى الصوت: تقدم نماذج اللغة الكبيرة المدركة للصوت في تحسين دقة التعرف على المتحدثين
توفر نماذج اللغة الكبيرة المدركة للصوت (Speech-aware LLMs) إمكانيات جديدة لتحديد هوية المتحدثين، مع تحسينات ملحوظة في الدقة. هذا المقال يسلط الضوء على تقنيات تقييم جديدة لتعزيز قدرات هذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
