في عالم الذكاء الاصطناعي، تزداد أهمية نماذج الرؤية واللغة (Vision-Language Models) بشكل متسارع، حيث يتم استخدامها كعوامل استدلال. ولكن، كيف يمكننا قياس موثوقية هذه النماذج وكيف يمكن أن تؤثر العناصر البصرية على قراراتها؟ مثل هذه الأسئلة تتصدر التفكير في كيفية تحسين أداء هذه التقنيات.

يميل الباحثون عادةً إلى استخدام الافتراض المعروف باسم "افتراض الانتباه-الثقة" (Attention-Confidence Assumption)، حيث يُعتقد أن التركيز البصري على مناطق معينة يكون مؤشراً على موثوقية الإجابة. بيد أن دراسة حديثة تحت عنوان "استكشاف موثوقة نماذج الرؤية واللغة" (VLM Reliability Probe) تكشف عن نتائج مثيرة تتحدى هذه الفكرة.

من خلال تحليل شامل لبيانات نماذج متنوعة، وجد الباحثون أن وجود "انفصال رمزي" (Symbolic Detachment) يعني أن النماذج غالباً ما توجه ميزات بصرية في البداية فقط لتفقد التركيز لاحقاً، ما يؤدي إلى التباين بين التصور الأولي ونتائج التوليد النهائية.

وعكس ما يُعتقد، فإن الانتباه المكاني لا يرتبط بدقة النتائج، حيث يظهر دراسة أن هناك تقريباً عدم ارتباط (R ≈ 0.001) بينهما. بدلاً من ذلك، يتضح أن الموثوقية تتأثر بديناميكيات التوليد والتوزيعات الداخلية للحالة. أظهرت النتائج أن "الاستمرارية الذاتية" (Self-Consistency)، أي معدل الاتفاق عبر مسارات الاستدلال المختلفة، هي أفضل مؤشر للحقيقة (R = 0.429).

تسليط الضوء على هذه الديناميكيات يساعد في فهم كيفية تصرف النماذج تحت تأثير أحداث مختلفة. فعلى سبيل المثال، تمثل نماذج مثل LLaVA قيدًا fragile في مرحلة التحليل النهائية، بينما تُظهر نماذج PaliGemma وQwen2-VL توزيعاً موثوقاً عبر الشبكة، مما يجعلها أكثر قدرة على الحفاظ على دقتها حتى في ظل فقدان معلومات كبيرة.

في الختام، يتضح أن فحص موثوقية نماذج الرؤية واللغة يجب أن يتم من خلال ديناميات الوقت الفعلي وتحليل الحالة الداخلية بدلاً من الاعتماد فقط على المعلومات البصرية.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.