مع تقدم [تكنولوجيا](/tag/تكنولوجيا) الذكاء الاصطناعي، أصبح من المعتاد أن يتم وصف [نماذج الفيديو](/tag/[نماذج](/tag/نماذج)-الفيديو) الذاتية الإشراف (Self-supervised Video [Models](/tag/models)) كنماذج للعالم ([World Models](/tag/world-models)). لكن، هل هذا التوصيف كافٍ لفهم إمكانياتها الحقيقية؟ في [دراسة](/tag/دراسة) حديثة نشرت على arXiv، تم [تحليل](/tag/تحليل) أربعة [نماذج](/tag/نماذج) شاملة متطابقة في القدرات، وهي V-JEPA 2.1، V-JEPA 2، VideoPrism، وVideoMAEv2، على خمسة محاور تتعلق بقدرتها على العمل كنماذج للعالم: تمييز الميزات، [قوة](/tag/قوة) التحمل عند الفساد، التمييز الدقيق، [قوة](/tag/قوة) التحمل عند الحجب، والحساسية تجاه اتجاه الزمن.

تظهر النتائج أن [نماذج](/tag/نماذج) [التنبؤ](/tag/التنبؤ) الخفي تتمتع بملف مميز وثابت [عبر](/tag/عبر) جميع المحاور الخمسة. فهي تُظهر قدرة أفضل على التعامل مع الفساد البيكسلي (Pixel Corruption) من خلال الحفاظ على هيكل الفئات القابل للاستخدام بدلاً من [الاستقرار](/tag/الاستقرار) الهندسي فقط عند الحجب. كما أنها تلتقط [إشارات](/tag/إشارات) الاتصال الفيزيائية الدقيقة دون الحاجة إلى إعادة [بناء](/tag/بناء) البيكسلات، وتشفّر الزمن بشكل فريد.

الأكثر إثارة للاهتمام هو أن هذه المزايا يمكن أن تبقى حتى بعد [التكيف](/tag/التكيف) مع المهام المختلفة. فعلى سبيل المثال، أثبت هيكل V-JEPA 2 المجمد مع [أداة](/tag/أداة) [انتباه](/tag/انتباه) خفيفة الوزن فعاليته في الأداء، متفوقاً على [نموذج](/tag/نموذج) VideoMAE المدرب تماماً وTimeSformer المراقب في مجال [قوة](/tag/قوة) التحمل عند الفساد والحجب.

تقدم النتائج الشاملة لهذا [البحث](/tag/البحث) دليلاً ملموساً جديداً يدعم استخدام [نماذج](/tag/نماذج) [التنبؤ](/tag/التنبؤ) الخفي في [نمذجة العالم](/tag/[نمذجة](/tag/نمذجة)-العالم) ليكون أكثر [قوة](/tag/قوة) وفعالية. مع [تطور](/tag/تطور) هذه التكنولوجيا، يبدو أن المستقبل يحمل في طياته إمكانيات غير محدودة في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).