مع تقدم تكنولوجيا الذكاء الاصطناعي، أصبح من المعتاد أن يتم وصف نماذج الفيديو الذاتية الإشراف (Self-supervised Video Models) كنماذج للعالم (World Models). لكن، هل هذا التوصيف كافٍ لفهم إمكانياتها الحقيقية؟ في دراسة حديثة نشرت على arXiv، تم تحليل أربعة نماذج شاملة متطابقة في القدرات، وهي V-JEPA 2.1، V-JEPA 2، VideoPrism، وVideoMAEv2، على خمسة محاور تتعلق بقدرتها على العمل كنماذج للعالم: تمييز الميزات، قوة التحمل عند الفساد، التمييز الدقيق، قوة التحمل عند الحجب، والحساسية تجاه اتجاه الزمن.

تظهر النتائج أن نماذج التنبؤ الخفي تتمتع بملف مميز وثابت عبر جميع المحاور الخمسة. فهي تُظهر قدرة أفضل على التعامل مع الفساد البيكسلي (Pixel Corruption) من خلال الحفاظ على هيكل الفئات القابل للاستخدام بدلاً من الاستقرار الهندسي فقط عند الحجب. كما أنها تلتقط إشارات الاتصال الفيزيائية الدقيقة دون الحاجة إلى إعادة بناء البيكسلات، وتشفّر الزمن بشكل فريد.

الأكثر إثارة للاهتمام هو أن هذه المزايا يمكن أن تبقى حتى بعد التكيف مع المهام المختلفة. فعلى سبيل المثال، أثبت هيكل V-JEPA 2 المجمد مع أداة انتباه خفيفة الوزن فعاليته في الأداء، متفوقاً على نموذج VideoMAE المدرب تماماً وTimeSformer المراقب في مجال قوة التحمل عند الفساد والحجب.

تقدم النتائج الشاملة لهذا البحث دليلاً ملموساً جديداً يدعم استخدام نماذج التنبؤ الخفي في نمذجة العالم ليكون أكثر قوة وفعالية. مع تطور هذه التكنولوجيا، يبدو أن المستقبل يحمل في طياته إمكانيات غير محدودة في عالم الذكاء الاصطناعي.