تشهد الأبحاث الأخيرة تقدمًا مثيرًا في مجال نماذج اللغة المرئية (VLMs)، حيث تسلط الضوء على التحديات المرتبطة بتوافق الرؤية واللغة. يعتمد الكثير من التقييمات الحالية على توزيعات الانتباه للرموز الموجودة في الجواب، لكن الأبحاث الجديدة كشفت عن مشكلة مثيرة للاهتمام. فبينما يبدو أن بعض مناطق الانتباه تحقق أعلى الدرجات، ليست هذه المناطق دائمًا متوافقة مع الرموز الدلالية المطلوبة.
تكمن إحدى المشكلات في انحراف التفكيك، حيث تتراكم المعطيات اللغوية من الرموز التي تم إنشاؤها سابقًا، مما يسبب تباينًا مع التركيز المرئي. بالإضافة إلى ذلك، تظهر الدراسة أن الرموز الهيكلية مثل علامات حدود الوضعية، قد تؤدي إلى تركيز عالي على مناطق غير مرتبطة بالهدف، مما يزيد من الشكوك حول دقة هذه النماذج.
لتجاوز هذه التحديات، توصي الدراسة باستخدام نموذج تفعيل الرموز البصرية (PV-TAM) والذي يعتمد على دلالات محفزات النص. يتضمن هذا النموذج فلترًا يزيل التحيز النظامي الناجم عن علامات حدود الوضعية. بخلاف الأساليب التقليدية، التي تقيم التداخل فقط من خلال الأقنعة، يعتمد نموذج PV-TAM على توزيع ذروة الانتباه قياسًا بين المحفزات والمناطق البصرية المستهدفة.
أظهرت النتائج التجريبية أن PV-TAM يعزز باستمرار من مؤشرات التقييم المستندة إلى الانتباه وأسلوب IoU، محققًا نتائج أفضل على مجموعة متنوعة من البيانات. إذا كنت مهتمًا بكيفية تطور الذكاء الاصطناعي في الربط بين النص والصورة، فإن هذه الدراسة تمثل خطوة هامة نحو تحسين دقة نماذج اللغة المرئية.
استمع لتوضيح الرؤية: كيف يحسّن نموذج تفعيل الرموز البصرية أداء نماذج اللغة المرئية
تعاني نماذج اللغة المرئية (VLMs) من انحراف في الانتباه مما يؤثر على الاستجابة لنمط المعلومات المرئية. تقدم الدراسة الجديدة نموذج تفعيل الرموز البصرية (PV-TAM) لتحسين دقة التقييم والتوافق بين النص والصورة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
