في عالم الذكاء الاصطناعي، يُعدُّ الفهم السببي (Causal Reasoning) جزءًا أساسيًا من قدرة الأنظمة على تفسير وتحليل الأحداث في العالم المادي. يتطلب هذا الفهم قدرة على تحديد المتغيرات السببية من المدخلات البصرية والتفكير في تأثيرات التدخلات. ومع ظهور نماذج اللغة الكبيرة (Large Language Models) المخصصة للرؤية، ما زالت هناك تحديات قائمة، خاصة عند التعامل مع استفسارات تدخلية أو عكسية على صور متعددة.

في محاولة لمعالجة هذه التحديات، جاء الباحثون بتطوير نموذج BridgeVLM الذي يعيد تشكيل كيفية تنفيذ التعلم السببي. يعتمد هذا النموذج على إنشاء رسم بياني سببي مستمد من المدخلات البصرية المتعددة، ويحوّله إلى رموز سببية (Causal Tokens) وهيكلية يتم تنفيذها بواسطة طبقات RAMP المتقدمة في وحدة فك ترميز النموذج.

أحد العناصر المبتكرة في BridgeVLM هو واجهة التدريب الموحدة المعروفة باسم M3S، التي تسمح بالإشراف السببي الدقيق عبر مستويات مختلفة، سواء كانت محلية أو عالمية. وبفضل هذه البنية التقنية المتقدمة، تمكن BridgeVLM من تحقيق دقة بلغت 54.4% في المهام التدخلية على مجموعة بيانات CausalVLBench، مقارنة بـ 33.2% مع الإشراف على مستوى المطالب فقط. كما سجل تحسناً ملحوظاً في النتائج على Causal3D، حيث ارتفعت النسبة من 43.6% إلى 49.0%.

هذه التطورات لا تسلط الضوء فقط على تحسين الأداء، بل تشير أيضًا إلى قفزة في تعلم البنية السببية، حيث حقق النموذج تحسناً كبيرًا بنسب تصل إلى 75.1% في مجموعة CausalVLBench.

إذا كنت مهتمًا بمستقبل الذكاء الاصطناعي وكيف يمكن أن يغير التعلم السببي الفردي طرق فهمنا للصور، تابعوا التطورات المثيرة القادمة في هذا المجال!