تواجه [النماذج](/tag/النماذج) المتعلقة بالرؤية واللغة ([Vision-Language Models](/tag/vision-language-models)) [تحديات](/tag/تحديات) كبيرة في [التفاعل](/tag/التفاعل) مع [المعلومات](/tag/المعلومات) البصرية المعقدة، خاصة عند محاولة [دمج المعلومات](/tag/دمج-[المعلومات](/tag/المعلومات)) غير المحلية لدعم [استدلال بصري](/tag/[استدلال](/tag/استدلال)-بصري) قد يكون غير محدد بالمعنى. لهذا السبب، وُصفت هذه التحديات باستدلال بصري مجزأ (Fragmented Visual Reasoning).
في إطار هذا السياق، تم تقديم CAVE (Credit Assignment for Visual Evidence)، وهو [نموذج جديد](/tag/[نموذج](/tag/نموذج)-[جديد](/tag/جديد)) يعتمد على طريقة [مكافآت](/tag/مكافآت) هيكلية تستند إلى [GRPO](/tag/grpo) (Generalized Reward Process [Optimization](/tag/optimization)) لاستدلال بصري أكثر تفاعلاً.
يعمل CAVE على [تقييم](/tag/تقييم) مساهمة الخطوات الوسيطة على مستوى الفعل من خلال ثلاثة [إشارات](/tag/إشارات) [استراتيجية](/tag/استراتيجية) مكملة: [تحديث](/tag/تحديث) الاعتقاد (Belief Update)، اكتساب [الأدلة](/tag/الأدلة) (Evidence Acquisition)، والتحكم في التركيز التكيفي (Adaptive Focus Control). هذا [التوجيه](/tag/التوجيه) يساعد النموذج على [تحسين](/tag/تحسين) كل فعل استدلالي ويعلّم [استراتيجيات](/tag/استراتيجيات) [استدلال بصري](/tag/[استدلال](/tag/استدلال)-بصري) أكثر [موثوقية](/tag/موثوقية).
بالإضافة إلى ذلك، قامت الفرق بتطوير TRACER-Bench، وهو مدرج يحتوي على أربعة أبعاد [استدلال](/tag/استدلال) غير محلية وقابلة للخلط دلالياً، ويوفر [الأدلة](/tag/الأدلة) الوسيطة اللازمة لمراقبة مسارات [الاستدلال](/tag/الاستدلال).
[تجارب](/tag/تجارب) [الأداء](/tag/الأداء) أظهرت أن CAVE قد حسّن بشكل كبير من [الأداء](/tag/الأداء) في المهام التي تتطلب دمج [الأدلة](/tag/الأدلة) البصرية المجزأة، حيث شملت الاختبارات كلا من [المؤشرات](/tag/المؤشرات) العامة والأداء على TRACER-Bench الجديد، مع الاحتفاظ بأداء تنافسي على [التقييمات](/tag/التقييمات) [متعددة الوسائط](/tag/متعددة-الوسائط) العامة.
تظهر التحليلات الإضافية أن CAVE يعزز بشكل فعال قدرة [الاستدلال](/tag/الاستدلال) البصري ويظهر [قوة](/tag/قوة) أكبر في ظروف الاعتماد على المناطق الكبيرة والعميقة.
متى تعتقد أن هذه [التقنية](/tag/التقنية) يمكن أن تُستخدم لتطوير [تطبيقات](/tag/تطبيقات) جديدة في [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!
التحول في الذكاء الاصطناعي: كيف يمكن لـ CAVE تحسين التفكير البصري المعقد؟
تقديم CAVE: نهج مبتكر لتحسين الاستدلال البصري عند دمج معلومات غير محلية. هذا الأسلوب يعد بمثابة ثورة في نماذج اللغة والرؤية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
