تعتبر التفاعلات الصوتية المباشرة (Full-duplex Speech Interaction) من أكثر أساليب التواصل البشري طبيعية وبدائية، مما يدفع الذكاء الاصطناعي (AI) إلى خلق أنظمة المحادثات التي تشبه البشر بشكل أكبر. ومع ذلك، فإن التقنيات التقليدية في معالجة الكلام التي تعتمد على الأنظمة المتسلسلة تعاني من العديد من القيود الحرجة، مثل تراكم التأخير وفقدان المعلومات، مما يؤثر سلباً على دقة الأداء.
استجابةً لهذه التحديات، تم تقديم نماذج اللغة الصوتية الكبيرة (Large Language Models) مثل GPT-4o، والتي توحد بين فهم الكلام وإنشاء النص. ولكن، تظل معظم هذه النماذج تعمل في أنماط نصف مزدوجة، وتعتمد على مجموعة من المكونات الأمامية الخاصة بالمهام مثل الكشف عن نشاط الصوت (Voice Activity Detection) وكشف أدوار المتحدثين (Turn-Taking Detection).
خلال تطويرنا لمساعد صوتي، وجدنا أن تحسين الجزء الأمامي للصوت لا يقل أهمية عن تطوير النموذج الموحد في الجزء الخلفي، لتحقيق تفاعلات سلسة وسريعة. لذا، نقدم هنا نموذج UAF، وهو أول نموذج صوتي موحد مصمم خصيصًا لأنظمة الكلام المزدوجة.
يعمل نموذج UAF على إعادة صياغة المهام المختلفة للجوانب الأمامية للصوت في مشكلة واحدة للتنبؤ التسلسلي الذاتي، تشمل الكشف عن نشاط الصوت وكشف أدوار المتحدثين، وتمييز المتحدثين (Speaker Recognition)، والتعرف التلقائي على الكلام (Automatic Speech Recognition) وطرح الأسئلة والإجابة (Question Answering). يستقبل النموذج تجزئة صوتية ثابتة (مثل 600 ملي ثانية) كمدخلات، ويستخدم مرجع صوتي لتحديد المتحدث المستهدف في البداية، ثم ينتج بشكل تكراري رموزًا منفصلة تحتوي على المحتوى الدلالي ونظام التحكم على مستوى النظام، مثل إشارات الانقطاع.
تظهر التجارب أن نموذج UAF يحقق أداءً رائدًا عبر عدة مهام تتعلق بالصوت، كما يعزز بشكل كبير من دقة الاستجابة وسرعة الانقطاع في سيناريوهات التفاعل الواقعية. هل أنتم مستعدون لاستكشاف مستقبل تكنولوجيا التفاعل الصوتي؟ شاركونا آراءكم في التعليقات!
نموذج UAF: ثورة في تكنولوجيا التفاعل الصوتي المباشر
يقدم نموذج UAF موحد الصوتيات حلولاً مبتكرة لتفاعلات الكلام المباشرة، مما يعزز من دقة الاستجابة وسرعة التفاعل. هذا النموذج يعد خطوة كبيرة نحو أنظمة محادثات أكثر إنسانية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
