في عالم الذكاء الاصطناعي، تمثل نماذج اللغات الضخمة متعددة الوسائط (Multimodal Large Language Models - MLLMs) نقاط تحول مهمة في فهم الصور والفيديوهات. ومع تقدم هذه النماذج، أصبح بإمكانها معالجة مدخلات بصرية أطول وأكثر تعقيدًا. ومع ذلك، فإن المهام الطويلة الأمد مثل القيادة الذاتية والتنقل الروبوتي تتطلب أكثر من مجرد التعرف على المشهد الحالي؛ بل تحتاج إلى تذكر واسترجاع التوزيعات المكانية المسجلة سابقًا، والمسارات، وتغييرات وجهات النظر، وحالات الأجسام.

لتقييم هذه القدرة، تم تقديم "LongSpace-Bench"، وهو معيار فيديو للقيام بجولات داخل الغرف يركز على الذاكرة المكانية على المدى الطويل، ويتناول إدراك المشهد، والعلاقات المكانية، والذاكرة المكانية. هذا العمل المبتكر يقدم أيضًا "LongSpace"، وهو إطار عمل للذاكرة مصمم خصيصًا للتفكير المكاني في الفيديوهات الطويلة.

يعالج LongSpace الفيديوهات الطويلة ككتل متسلسلة، ويضيف مؤشرات هيكلية ثلاثية الأبعاد إلى الطبقات الأولى من وحدة فك التشفير، ويقوم ببناء ذاكرة واعية بالطبقات لاسترجاع موجه ونوع محدد للإجابة.

أظهرت التجارب على مجموعة من معايير التفكير المكاني أن LongSpace يحسن من فهم الفيديوهات الطويلة، مما يبرز الذاكرة المكانية كقدرة أساسية لنماذج MLLMs الخاصة بالفيديوهات الطويلة.

هذا التطور يعد خطوة هامة نحو تعزيز قدرة الذكاء الاصطناعي في فهم وتفسير المشاهد المعقدة، مما يمهد الطريق لمزيد من الابتكارات في المجالات التقنية المتعددة.