في عالم تتزايد فيه الحاجة إلى تحسين التفاعل بين البشر والروبوتات، تأتي تقنية MuVAP (Multimodal Multiparty Voice Activity Projection) كحل مبتكر. تعتمد هذه التقنية على طيف واسع من البيانات السمعية والبصرية لتوقع من يتحدث في المحادثات الجماعية، مما يجعلها مثالية لتطبيقات التفاعل البشري-الروبوت.
تقليديًا، كانت نماذج تبادل الأدوار تعتمد على استخدام مجمعات ميكروفونات معقدة أو إعدادات مكونة من عدة كاميرات، وهو ما يحد من استخدامها عمليًا. لكن MuVAP تضع حدًا لهذه المشكلات من خلال تقديم إطار عمل غير مسبوق يستند إلى التنبؤات الصوتية التي تُدمج مع مسارات الوجه، مما يسمح بتوقعات دقيقة حتى باستخدام صوت أحادي وكاميرا واحدة.
تتجاوز MuVAP التعقيد الحسابي المتمثل في نمذجة العديد من المتحدثين عبر تقديم تقنية جديدة تُعرف باسم "Projection المتعلقة بالدور"، والتي تربط أي تفاعل بين N متحدث إلى حالة ثابتة توضح من المُتحدث التالي.
وبما أن المجموعات الحالية للبيانات السمعية والبصرية تحتوي على مقاطع محررة تتسبب في حدوث انقطاعات في سلسلة الأحداث، تم تقديم مجموعة بيانات جديدة تُسمى "Corpus المحادثة السمعية والبصرية" والتي تضم 31 ساعة من المحادثات الجماعية غير المحررة بكاميرا واحدة.
تُظهر التقييمات أن MuVAP تتفوق على النماذج التقليدية في مهام التنبؤ بمتحول Shift-Hold وأيضًا في تحديد المتحدث التالي، سواء في محادثات تضم شخصين أو ثلاثة، مما يجعلها خطوةً مهمة نحو تحسين تقنيات الذكاء الاصطناعي في هذا المجال.
ابتكار ثوري في تفاعل الإنسان والروبوت: MuVAP يجمع بين الصوت والصورة لتوقع تبادل الأدوار
تمثل تقنية MuVAP قفزة نوعية في نمذجة تبادل الأدوار في المحادثات، حيث تعتمد على تكنولوجيا الصوت والصورة بشكل غير مسبوق. استطاعت هذه التكنولوجيا تجاوز التحديات التقليدية، مقدمةً أداءً متميزًا في التنبؤ من خلال مجموعة بيانات جديدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←# Technological Innovation# Human-Robot Interaction# MuVAP# Turn-Taking Prediction# Audio-Visual Data
جاري تحميل التفاعلات...
