ابتكار ثوري في تفاعل الإنسان والروبوت: MuVAP يجمع بين الصوت والصورة لتوقع تبادل الأدوار

Q: ما هو موضوع مقال "ابتكار ثوري في تفاعل الإنسان والروبوت: MuVAP يجمع بين الصوت والصورة لتوقع تبادل الأدوار"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "ابتكار ثوري في تفاعل الإنسان والروبوت: MuVAP يجمع بين الصوت والصورة لتوقع تبادل الأدوار" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم تتزايد فيه الحاجة إلى تحسين التفاعل بين البشر والروبوتات، تأتي تقنية MuVAP (Multimodal Multiparty Voice Activity Projection) كحل مبتكر. تعتمد هذه التقنية على طيف واسع من البيانات السمعية والبصرية لتوقع من يتحدث في المحادثات الجماعية، مما يجعلها مثالية لتطبيقات التفاعل البشري-الروبوت.

تقليديًا، كانت نماذج تبادل الأدوار تعتمد على استخدام مجمعات ميكروفونات معقدة أو إعدادات مكونة من عدة كاميرات، وهو ما يحد من استخدامها عمليًا. لكن MuVAP تضع حدًا لهذه المشكلات من خلال تقديم إطار عمل غير مسبوق يستند إلى التنبؤات الصوتية التي تُدمج مع مسارات الوجه، مما يسمح بتوقعات دقيقة حتى باستخدام صوت أحادي وكاميرا واحدة.

تتجاوز MuVAP التعقيد الحسابي المتمثل في نمذجة العديد من المتحدثين عبر تقديم تقنية جديدة تُعرف باسم "Projection المتعلقة بالدور"، والتي تربط أي تفاعل بين N متحدث إلى حالة ثابتة توضح من المُتحدث التالي.

وبما أن المجموعات الحالية للبيانات السمعية والبصرية تحتوي على مقاطع محررة تتسبب في حدوث انقطاعات في سلسلة الأحداث، تم تقديم مجموعة بيانات جديدة تُسمى "Corpus المحادثة السمعية والبصرية" والتي تضم 31 ساعة من المحادثات الجماعية غير المحررة بكاميرا واحدة.

تُظهر التقييمات أن MuVAP تتفوق على النماذج التقليدية في مهام التنبؤ بمتحول Shift-Hold وأيضًا في تحديد المتحدث التالي، سواء في محادثات تضم شخصين أو ثلاثة، مما يجعلها خطوةً مهمة نحو تحسين تقنيات الذكاء الاصطناعي في هذا المجال.

ابتكار ثوري في تفاعل الإنسان والروبوت: MuVAP يجمع بين الصوت والصورة لتوقع تبادل الأدوار

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

العمال المستقلون: كيف يدرّب الأفراد الروبوتات البشرية من منازلهم؟

قريباً: روبوت إنساني مُذهل بسعر 4,370 دولار على علي إكسبرس!

كيف يستخدم المديرون ChatGPT لتعزيز الأداء وتحسين التواصل؟