في عالم الذكاء الاصطناعي، تمثل نماذج اللغة المنطوقة ثنائية الاتجاه (Full-Duplex Spoken Language Models - FD-SLMs) قفزة نوعية في كيفية تفاعلنا مع الأنظمة الذكية. هذه النماذج تمكنت من تقديم تجربة سلسة حيث يمكنها الاستماع والتحدث في نفس الوقت، ولكن يبقى السؤال: كيف تدير هذه النماذج التنسيق بين الاستماع والتحدث؟

قام الباحثون بدراسة السلوك التنبؤي في تمثيلات FD-SLM، واكتشفوا أنها تتمتع بأنماط تنبؤية محددة تعتمد على نوع البث. عند الاستماع، تميل هذه النماذج إلى التنبؤ بالتدفق القادم من المستخدم، بينما أثناء الحديث، تكون تركز على تنبؤ تدفق مخرجات النموذج. لكن هذه الآلية ليست بدون تحديات، فقد لوحظ أن النموذج يمكن أن يعاني من الجمود الداخلي، حيث يستغرق بعض الوقت للتكيف مع التغييرات المفاجئة في السياق المحادثاتي.

لقياس تأثير هذا الجمود الداخلي، قدم الباحثون معيار Zero-Buffer Benchmark (ZBB)، والذي يقيس كيفية فهم النموذج للت interruptions أو الانقطاعات المفاجئة أثناء حديث المستخدم. حيث أظهرت نتائج الاختبارات أن التوجيه النشط باستخدام متجه الإدراك يساعد بشكل كبير في معالجة هذه الانقطاعات، مما أدى إلى تحسين الدقة من 28٪ إلى 45٪. هذه التحسينات جرت دون الحاجة إلى ضبط إضافي للنموذج، مما يبرز كفاءة التوجيه النشط كخيار مثير للاهتمام للمستقبل.

في نهاية المطاف، يبشر هذا البحث بنهج جديد وأفضل في تصميم المساعدات الصوتية، مما يعزز قدرتها على التعامل مع تحدثات متعددة الأبعاد وبشكل أكثر طبيعية. كيف تعتقد أن هذه التطورات ستؤثر على مستقبل التفاعل بين البشر والتكنولوجيا؟