تشهد النماذج متعددة الوسائط الكبيرة (MLLMs) تحديات كبيرة عندما يتعلق الأمر بالهلاوس، حيث تنتج أوصاف غير دقيقة تتعلق بالصور. الأمور تصبح أكثر تعقيداً حين نجد أن هذه الهلاوس ترتبط بتشتت الانتباه، وهو ظاهرة شبيهة بكيفية تأثير التركيز المنقسم لدى البشر على وضوح الرؤية.
أظهرت الأبحاث أن هذا التشتت يؤدي إلى انخفاض في الدقة البصرية، وهنا يتجلى تأثير مماثل في نماذج التعلم العميق عبر عدم الاتساق المكاني في الانتباه المتعدد الأبعاد، حيث يتلاشى التركيز على العناصر البصرية خلال عملية فك التشفير.
سعت هذه الدراسة إلى إلقاء الضوء على هذه المسألة بتقديم شروحات نظرية تثبت أن تشتت الانتباه يزيد من تعقيد النموذج ويؤثر سلباً على قدرة التصنيف العامة. ومن خلال الاستفادة من هذه النتائج، تم اقتراح نهج جديد يعرف باسم نهج تحسين الإدراك البصري عبر التركيز على الانتباه (AFIP) الذي يهدف إلى تصحيح التشتت من خلال تعزيز الانتباه المتقاطع وتعزيز التأسيس البصري عبر تحسين الانتباه التاريخي الديناميكي.
تؤكد التجارب التي أجريت على عدة نماذج ومؤشرات، فعالية هذا النهج الجديد دون الحاجة إلى تدريب إضافي، مما يقدم رؤية جديدة لتحسين النماذج متعددة الوسائط وتعزيز أداءها العام.
تصحيح الضبابية البصرية الناتجة عن تشتيت الانتباه: كسر الحواجز نحو تحسين النماذج متعددة الوسائط
اكتشف باحثون أن الضبابية البصرية المرتبطة بتشتيت الانتباه تؤدي إلى الهلاوس في نماذج اللغة متعددة الوسائط (MLLMs). تم تقديم نهج جديد يركز على الانتباه لتحسين جودة الإدراك البصري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
