في عالم الذكاء الاصطناعي، تلعب تكنولوجيا معالجة الصوت والصورة دورًا حيويًا في تعزيز القدرة على الإجابة على الأسئلة بطريقة فعالة ودقيقة. ومع ذلك، كانت نماذج الذكاء الاصطناعي الحالية تواجه تحدي التداخل بين المدخلات الصوتية (audio) والبصرية (visual)، مما يؤدي إلى أخطاء في التفسير وتكوين معلومات غير صحيحة أو ما يُعرف بالهلوسات (hallucinations).
اقترحت مجموعة من الباحثين حلاً مبتكرًا يُعرف بـ "فصل أولاً، دمج لاحقًا" (Separate First, Fuse Later - SFFL)، وهو إطار عمل يهدف إلى تقليل هذا التداخل. يعتمد إطار SFFL على مفهوم "التفكير المتسلسل الخاص بكل حاسة" (modality-specific chain-of-thought) لإنتاج مسارات تفكير منفصلة لكل من المعلومات الصوتية والبصرية، مما يساعد على دمج الأدلة بشكل أكثر فعالية عند الإجابة على الأسئلة.
تتضمن الطريقة إنشاء تسميات تفضيل للحواس تستند إلى إعدادات مختلفة للمدخلات، ويتم استخدامها كمكافأة مساعدة في عملية التعلم التعزيزي (reinforcement learning). هذا يضمن تفضيلًا ديناميكيًا للإشارات المتعلقة بكل حاسة عند ظهور السؤال.
لمزيد من تحسين كفاءة النموذج، تم إدخال آلية تفكير خاصة بالحس تُحافظ على العزلة بين المدخلات في مرحلة التفكير المنفصل، بينما تسمح بالوصول الكامل للمعلومات بين الحواس في مرحلة دمج الأدلة.
تُظهر التجارب الناتجة عن هذا الإطار تحسينات متسقة في الدقة والموثوقية، حيث حققت نماذج الذكاء الاصطناعي تحسينًا نسبيًا بلغ 5.16% في مؤشرات الأداء العامة للأسئلة الصوتية والبصرية (AI Visual Question Answering)، و11.17% في اختبار الهلوسات بين الحواس. هذه النتائج تعكس الأثر الكبير الذي يمكن أن تحققه الابتكارات في مجال النماذج اللغوية الكبيرة (Large Language Models) وتحسين تجربة المستخدم بشكل عام.
ما الذي تتوقعون أن تحققه هذه الابتكارات في المستقبل؟ شاركونا بآرائكم في التعليقات!
تقنية جديدة لتخفيف التداخل بين الحواس: إطار SFFL يحقق ثورة في نماذج الذكاء الاصطناعي الصوتية والبصرية
تقدم تقنية Separate First, Fuse Later (SFFL) حلاً مبتكرًا لمشكلة التداخل بين المدخلات الصوتية والبصرية في نماذج الذكاء الاصطناعي. تشير النتائج إلى تحسينات ملحوظة في الدقة والموثوقية، مما يفتح آفاق جديدة في معالجة الأسئلة الصوتية والبصرية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
