في عالم الذكاء الاصطناعي (AI)، تُعتبر نماذج توليد الصور من أبرز التطورات التقنية، حيث تزخر هذه النماذج بإمكانيات مذهلة في خلق صور فنية ومذهلة. ولكن هل يمكن لهذه النماذج أن تتخيل كيف تتغير صورة مع مرور الزمن؟ هنا يأتي دور دراسة جديدة مبتكرة عُرفت باسم ImageTime.

تبحث هذه الدراسة في كيفية تمثيل النماذج للزمن والتغيرات البصرية عبره، حيث تعتبر التطبيقات العملية مثل إعداد السيناريوهات (storyboarding) وتحرير الصور المستندة إلى مرجع، بالإضافة إلى تصور الفيديو، بحاجة ماسة إلى نماذج قادرة على الحفاظ على هويات العناصر، والعلاقات المكانية، والترتيب السببي بين الحالات البصرية المتعددة.

يُعد إطار ImageTime معيارًا تشخيصيًا يستخدم الاتساق الزمني المكاني كعامل قياس لنمذجة العالم البصري في نماذج توليد الصور. إذ يتعين على النموذج استجابةً لتعليمات فعلية، وبدلًا من ذلك، إظهار حالة بصرية تتضمن أربع حالات رئيسية مرتبة زمنياً: الحالة الأولية، بدء الفعل، حالة الانتقال، والحالة النهائية. هذا البروتوكول يتطلب استجابة زمنية أعلى مقارنةً بتوليد الصورة الواحدة، ما يُضيف بعدًا جديدًا لهذه النماذج.

تتضمن عملية التقييم عبر ImageTime تنظيم المهام وفقًا لهيراركية متزايدة للقدرات، حيث يتم تحليل كل سيناريو إلى مراحل مختلفة تتضمن قيود زمنية وعلاقة سببية. وبعد تقييم النتائج باستخدام نموذج GPT-5.5، تكشف الدراسة عن نقاط القوة والضعف في الأنظمة الحالية لتوليد الصور.

باستخدام مجموعة متنوعة من المعايير، يوضح ImageTime أين تنجح هذه النماذج، وأين تفشل، وأين يمكن أن تبتعد عن الحفاظ على حالة العالم البصري بشكل متماسك على مر الزمن. تُعتبر هذه الدراسة خطوة متقدمة نحو تعزيز قابلية الذكاء الاصطناعي في فهم العلاقات الزمنية في العالم البصري والتغيرات الحاصلة فيه.

فهل تعتقد أن النماذج الحالية قادرة على تطوير إدراكها للزمن والتغيرات بمرور الوقت؟ شاركونا آرائكم في التعليقات!