في عالم الذكاء الاصطناعي، تحققت تقدمات ملحوظة في نماذج الفيديو واللغة (VLMs)، حيث أصبحت قادره على فهم العلاقات الزمانية والمكانية بشكل متزايد. ولكن، هل تساءلتم يومًا لماذا تعجز هذه النماذج عن رؤية ما يراه البشر؟

مؤخراً، تم تقديم معيار جديد يُدعى SpookyBench، الذي يختبر قدرة النماذج على التعرف على الأنماط الزمنية فقط، دون الاعتماد على المعلومات المكانية. في هذا المعيار، تم تشفير المعلومات بشكل حصري في تسلسلات زمنية من الإطارات التي تشبه الضوضاء، مما يحاكي الظواهر الطبيعية مثل الإشارات البيولوجية والتواصل السري.

المثير للدهشة هو أن البشر يستطيعون التعرف على الأشكال والنصوص والأنماط بشكل صحيح بنسبة تفوق 98%، في حين أن أحدث نماذج VLMs حققت نسبة دقة تصل إلى 0%. هذه الفجوة في الأداء توضح قيدًا رئيسيًا: الاعتماد المفرط على الميزات المكانية على مستوى الإطارات، وعدم القدرة على استخراج المعاني من الإشارات الزمنية.

علاوة على ذلك، تشير الأبحاث إلى أن النماذج تعاني من تدهور سريع في الفهم الزمني عند التعامل مع مجموعات البيانات ذات مستويات الإشارة المنخفضة، خاصة في المهام التي تتطلب تحليلًا زمنيًا دقيقًا. لمواجهة هذه التحديات، يُظهر تحليلنا النظامي أن الحاجة ملحة لتطوير هياكل جديدة أو نماذج تدريب تفصل بين الاعتماد الزماني والمكاني. وقد أطلقنا معيار SpookyBench لتسريع الأبحاث في التعرف على الأنماط الزمنية وسد الفجوة بين فهم الفيديو لدى الإنسان والآلة.

إذا كنتم مهتمين بالتعمق في هذا الموضوع، يمكنكم زيارة [الموقع الرسمي للمشروع](https://timeblindness.github.io/) لتحميل البيانات والكود اللازم لبدء البحث.