تواجه النماذج المتعلقة بالرؤية واللغة (Vision-Language Models) تحديات كبيرة في التفاعل مع المعلومات البصرية المعقدة، خاصة عند محاولة دمج المعلومات غير المحلية لدعم استدلال بصري قد يكون غير محدد بالمعنى. لهذا السبب، وُصفت هذه التحديات باستدلال بصري مجزأ (Fragmented Visual Reasoning).

في إطار هذا السياق، تم تقديم CAVE (Credit Assignment for Visual Evidence)، وهو نموذج جديد يعتمد على طريقة مكافآت هيكلية تستند إلى GRPO (Generalized Reward Process Optimization) لاستدلال بصري أكثر تفاعلاً.

يعمل CAVE على تقييم مساهمة الخطوات الوسيطة على مستوى الفعل من خلال ثلاثة إشارات استراتيجية مكملة: تحديث الاعتقاد (Belief Update)، اكتساب الأدلة (Evidence Acquisition)، والتحكم في التركيز التكيفي (Adaptive Focus Control). هذا التوجيه يساعد النموذج على تحسين كل فعل استدلالي ويعلّم استراتيجيات استدلال بصري أكثر موثوقية.

بالإضافة إلى ذلك، قامت الفرق بتطوير TRACER-Bench، وهو مدرج يحتوي على أربعة أبعاد استدلال غير محلية وقابلة للخلط دلالياً، ويوفر الأدلة الوسيطة اللازمة لمراقبة مسارات الاستدلال.

تجارب الأداء أظهرت أن CAVE قد حسّن بشكل كبير من الأداء في المهام التي تتطلب دمج الأدلة البصرية المجزأة، حيث شملت الاختبارات كلا من المؤشرات العامة والأداء على TRACER-Bench الجديد، مع الاحتفاظ بأداء تنافسي على التقييمات متعددة الوسائط العامة.

تظهر التحليلات الإضافية أن CAVE يعزز بشكل فعال قدرة الاستدلال البصري ويظهر قوة أكبر في ظروف الاعتماد على المناطق الكبيرة والعميقة.

متى تعتقد أن هذه التقنية يمكن أن تُستخدم لتطوير تطبيقات جديدة في الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!