تشهد [تقنية الذكاء الاصطناعي](/tag/[تقنية](/tag/تقنية)-الذكاء-الاصطناعي) تطورًا مذهلاً يقودها [نموذج جديد](/tag/[نموذج](/tag/نموذج)-[جديد](/tag/جديد)) يعمل على [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) خلال [المحادثات](/tag/المحادثات). في [محادثات](/tag/محادثات) الذكاء الاصطناعي، غالبًا ما تبذل هذه [النماذج](/tag/النماذج) جهدًا كبيرًا للوصول إلى استجابات سلسة، لكنها تواجه [تحديات](/tag/تحديات) كبيرة في [معرفة](/tag/معرفة) متى يجب أن تتحدث. هنا يأتي دور [التقنية](/tag/التقنية) الجديدة التي تستخدم [الاستراتيجيات](/tag/الاستراتيجيات) [المتعددة الوسائط](/tag/المتعددة-الوسائط).

تتمثل الفكرة الأساسية في دمج الإشارات السمعية والبصرية في [نموذج](/tag/نموذج) واحد، مما يساعده على تعزيز وعيه بتوقيت [المحادثة](/tag/المحادثة). تم إعادة صياغة توقيت الاستجابة ليصبح مهمة توقع نوع الاستجابة الكثيفة، مما يمكّن النموذج من اتخاذ [قرار](/tag/قرار) بالسكوت، أو إصدار ردود فعل قصيرة، أو بدء رد كامل تبعًا للظروف المحيطة.

تم [تطوير](/tag/تطوير) [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) [متعددة الوسائط](/tag/متعددة-الوسائط) تحتوي على مقاطع [فيديو](/tag/فيديو) لمحادثات ثنائية من العالم الحقيقي، مع تزامن الإشارات المختلفة وتفاصيل دقيقة حول أنواع [التفاعل](/tag/التفاعل). هذه المجموعة تمثل حجر الزاوية لتدريب النموذج الجديد المسمى MM-When2Speak، الذي يدمج [تحسينات](/tag/تحسينات) قوية تعزز من قاعدة الـLLM.

تظهر [التجارب](/tag/التجارب) في إعدادات [متعددة الوسائط](/tag/متعددة-الوسائط) أن MM-When2Speak حقق تحسناً يصل إلى ثلاثة أضعاف في [أداء](/tag/أداء) توقع نوع الاستجابة، مما يؤكد أهمية الإدراك المتعدد الوسائط في [تحقيق](/tag/تحقيق) [تفاعلات](/tag/تفاعلات) [محادثة](/tag/محادثة) طبيعية وجذابة. مع هذه التطورات، يصبح من الممكن للعوالم الرقمية أن تقترب أكثر من [التجارب](/tag/التجارب) الحقيقية، مما يفتح آفاق جديدة في [تكنولوجيا الذكاء الاصطناعي](/tag/[تكنولوجيا](/tag/تكنولوجيا)-الذكاء-الاصطناعي).