تظل إدارة الوقت بين المتحدثين (Turn-taking) في المحادثات الصوتية متعددة الأطراف تحدياً أساسياً لوكلاء الصوت، خاصةً مع تداخل الأدوار وتنوع توقعات المستخدمين. في إطار هذه التحديات، تم اقتراح نموذج جديد يُعرف باسم ModeratorLM، والذي يمثل وكيل صوتي تلعب فيه الأدوار دوراً محورياً في تحسين سلوك إدارة الوقت في المحادثات الجماعية.

يعتمد نظام ModeratorLM على نموذج لغوي كبير (Large Language Model) يتم تشغيله بطريقة تدفق متقطع، مما يتيح له التعامل بكفاءة مع الأحداث الديناميكية في المحادثات. علاوة على ذلك، تم تقديم نسخة معززة بالتفكير (Reasoning-augmented variant) تستفيد من سلسلة من الأفكار (Chain-of-thought reasoning) تتعلق بالسياق الحواري والدور المعين لكل متحدث.

لإثبات فعالية النموذج، تم إنشاء مجموعة بيانات كبيرة تُعرف باسم RolePlayConv، تحتوي على محادثات جماعية تمثيلية مع أدوار مساعدة متنوعة. أظهرت التجارب التي أجريت على بيانات اجتماعات حقيقية ومجموعة RolePlayConv تحسناً ملحوظاً في دقة إدارة الوقت بنسبة تجاوزت 40%، وزيادة في الاسترجاع بنسبة تزيد عن 70%. كما أدى هذا النظام إلى تقليل الإشعارات الخاطئة بشكل ملحوظ مقارنةً بالأسس غير المشروطة.

إن هذه التطورات تمثل خطوة كبيرة نحو تحسين التفاعل الصوتي في البيئات المتعددة المشاركين، مما يعد بمستقبل واعد في عالم الذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!