في عالم الذكاء الاصطناعي، يعد التعامل مع الغموض البصري من أكبر التحديات التي تواجه نماذج اللغة البصرية (Vision-Language Models). في دراسة جديدة نشرتها arXiv، تم تقديم مفهوم مثير يدعى 'الانطواء الدلالي البصري' (Visual Semantic Entropy - VSE)، والذي يهدف إلى قياس كيفية استجابة هذه النماذج لمثل هذه التحديات.

يعتمد العديد من النماذج الحالية على قياسات مثل الانطواء الدلالي (Semantic Entropy)، التي تعزز من قدرة النموذج على إعداد إجابات موثوقة حول المدخلات الغامضة بصرياً. إلا أن التجارب أظهرت أن النماذج غالباً ما تُظهر ثقة مفرطة في اختياراتها، مما يؤدي إلى توقعات منحازة وعرضة لسوء التقدير.

النماذج التقليدية تعتمد على تنوع المخرجات لقياس عدم اليقين، لكن التحليلات أشارت إلى أن قلة التنوع هذه تُثبّط بالفعل قدرات النموذج في حالات الشفافية البصرية المعقدة.

مقارنةً بذلك، اقترحت الدراسة طرقاً حديثة تستدعي الاضطرابات في المدخلات، مثل إعادة صياغة النصوص أو مراعاة الاضطرابات في الصور والنصوص معًا، لتحسين أداء النموذج. ومع ذلك، وجدت الأبحاث أن التغيرات الناتجة غالبًا ما تكون مدفوعة بالتعديلات النصية بدلاً من الأدلة البصرية، مما يؤدي إلى تقييمات للغموض تعكس حساسية العبارات بدلاً من الغموض المرئي الفعلي.

من هنا، يتوحّد الانطواء الدلالي البصري كتقنية فعالة تعتمد على إجراء تغيرات فقط في الصورة، مع الحفاظ على نص الاستعلام ثابتاً. ويعمل VSE على قياس عدم اليقين عن طريق تجميع الإجابات المتولدة وتحليل التوزيع الدلالي بينها، مما يتيح له التقاط الغموض البصري بشكل أكثر دقة.

أثبتت النتائج التجريبية عبر خمسة نماذج حديثة من نماذج اللغة البصرية وخمسة معايير مختلفة لتقييم الأسئلة البصرية (VQA) أن VSE يحقق تقدماً ملحوظاً في كشف الغموض البصري، محدثًا طفرة جديدة في تقدير عدم اليقين في هذه النماذج.

سيكون لهذه التطورات آثار ملحوظة على التطبيقات المستقبلية للذكاء الاصطناعي، خاصة في مجالات تتطلب دقة عالية في التعرف على الصور وتحليلها. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.