في عالم الذكاء الاصطناعي، تواجه نماذج رؤية اللغة (VLMs) تحديات كبيرة في مجال فهم الصور المتعددة. وقد توصل فريق البحث إلى ظاهرة مثيرة للانتباه تتعلق بكيفية توليد التفكير التسلسلي (CoT) لدى هذه النماذج؛ حيث تبين أن التركيز البصري أثناء متابعة الصور يتسم بنمط "نبضات" غير متسقة، مما يؤدي إلى تشتت الانتباه وعدم التركيز على الصور ذات الصلة بالمهام.

علاوة على ذلك، تم الكشف عن تحيز موضعي منهجي في توزيع الانتباه عبر الصور، مما أظهر أن بعض الصور تُعطى أولوية على أخرى، بغض النظر عن أهميتها الحقيقية للمهام المطلوبة. استجابةً لهذه القضايا، قدم الباحثون تقنية جديدة تُدعى PulseFocus، التي تتيح إعادة هيكلة تفكير النماذج إلى كتل تخطيط وتركيز متداخلة مع بوابات انتباه ناعمة.

تعمل هذه التقنية على إجبار النموذج على التخطيط بوضوح بشأن الصورة التي سيتم فحصها، ومن ثم تقليل الانتباه أثناء التشفير للصورة المرجعية، مما يعزز التركيز ويحقق تحسناً كبيراً في الأداء. وقد حققت PulseFocus نجاحاً ملحوظاً في الاختبارات المتعددة الصور، حيث سجلت تحسينات تصل إلى (+3.7%) في معيار BLINK و(+1.07%) في مقياس MuirBench.

تُظهر هذه النتائج البارزة كيف يمكن للتقنيات التقدمية أن تُحدث فرقًا في تعزيز فعالية نماذج الذكاء الاصطناعي، مما يفتح آفاق جديدة لفهم الصور. فما رأيكم في هذه التقنية المبتكرة؟ شاركونا في التعليقات.