تشهد [تقنية الذكاء الاصطناعي](/tag/[تقنية](/tag/تقنية)-الذكاء-الاصطناعي) تطورًا مذهلاً يقودها [نموذج جديد](/tag/[نموذج](/tag/نموذج)-[جديد](/tag/جديد)) يعمل على [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) خلال [المحادثات](/tag/المحادثات). في [محادثات](/tag/محادثات) الذكاء الاصطناعي، غالبًا ما تبذل هذه [النماذج](/tag/النماذج) جهدًا كبيرًا للوصول إلى استجابات سلسة، لكنها تواجه [تحديات](/tag/تحديات) كبيرة في [معرفة](/tag/معرفة) متى يجب أن تتحدث. هنا يأتي دور [التقنية](/tag/التقنية) الجديدة التي تستخدم [الاستراتيجيات](/tag/الاستراتيجيات) [المتعددة الوسائط](/tag/المتعددة-الوسائط).
تتمثل الفكرة الأساسية في دمج الإشارات السمعية والبصرية في [نموذج](/tag/نموذج) واحد، مما يساعده على تعزيز وعيه بتوقيت [المحادثة](/tag/المحادثة). تم إعادة صياغة توقيت الاستجابة ليصبح مهمة توقع نوع الاستجابة الكثيفة، مما يمكّن النموذج من اتخاذ [قرار](/tag/قرار) بالسكوت، أو إصدار ردود فعل قصيرة، أو بدء رد كامل تبعًا للظروف المحيطة.
تم [تطوير](/tag/تطوير) [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) [متعددة الوسائط](/tag/متعددة-الوسائط) تحتوي على مقاطع [فيديو](/tag/فيديو) لمحادثات ثنائية من العالم الحقيقي، مع تزامن الإشارات المختلفة وتفاصيل دقيقة حول أنواع [التفاعل](/tag/التفاعل). هذه المجموعة تمثل حجر الزاوية لتدريب النموذج الجديد المسمى MM-When2Speak، الذي يدمج [تحسينات](/tag/تحسينات) قوية تعزز من قاعدة الـLLM.
تظهر [التجارب](/tag/التجارب) في إعدادات [متعددة الوسائط](/tag/متعددة-الوسائط) أن MM-When2Speak حقق تحسناً يصل إلى ثلاثة أضعاف في [أداء](/tag/أداء) توقع نوع الاستجابة، مما يؤكد أهمية الإدراك المتعدد الوسائط في [تحقيق](/tag/تحقيق) [تفاعلات](/tag/تفاعلات) [محادثة](/tag/محادثة) طبيعية وجذابة. مع هذه التطورات، يصبح من الممكن للعوالم الرقمية أن تقترب أكثر من [التجارب](/tag/التجارب) الحقيقية، مما يفتح آفاق جديدة في [تكنولوجيا الذكاء الاصطناعي](/tag/[تكنولوجيا](/tag/تكنولوجيا)-الذكاء-الاصطناعي).
نقلة نوعية في الذكاء الاصطناعي: نموذج متعدد الوسائط يحدد متى يجب التحدث!
توصل الباحثون إلى استراتيجية جديدة تعزز قدرة نماذج اللغات الضخمة (LLMs) على تحديد متى يتوجب عليها التحدث. تستخدم هذه الاستراتيجية الإشارات السمعية والبصرية لتحسين توقيت المحادثة بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
