في ظل التطورات المتسارعة في مجال نماذج اللغات متعددة الوسائط (MLLMsتمكن الباحثون من إيجاد حلول متعددة لتحسين الأداء في المهام البصرية والتي تعتمد على الصور والفيديوهات. ولكن السؤال المطروح هو: كيف يمكننا تعزيز الذكاء المكاني (Spatial Intelligence) لهذه النماذج، خاصة عند الاعتماد فقط على مدخلات ثنائية الأبعاد؟

هنا يأتي دور Spatial-MLLM، الإطار الجديد الذي يعزز القدرات البصرية من خلال معالجة المشاكل القائمة في النماذج الحالية. تعتمد الكثير من نماذج الـ 3D MLLMs على بيانات إضافية ثلاثية الأبعاد أو نصف ثنائية الأبعاد، مما يقيد فائدتها في سيناريوهات معينة تقتصر على مدخلات 2D.

يبرز هذا الإطار بنموذج هندسي بائس يقوم بإطلاق القوة المعلوماتية من نموذج الهندسة البصرية المجرب. يعتمد الهيكل على بنية مزدوجة المحولات: حيث يتم استخراج الميزات الدلالية بواسطة مشفر بصري مدرب مسبقًا بالأبعاد الثنائية، بينما يستخلص مشفر ذي أبعاد ثلاثية الميزات الهيكلية. هذه الاستراتيجية تُمكّن من دمج الميزات المختلفة في رموز بصرية موحدة لتحسين الفهم المكاني.

بالإضافة إلى ذلك، يُقدم الإطار استراتيجية مبتكرة لاختيار إطارات الفيديو المدروسة، مما يضمن أن النموذج يركز على العناصر الأكثر أهمية أثناء عمليات الاستنتاج. تجارب موسعة على مجموعة من البيانات الحقيقية أثبتت أن Spatial-MLLM يحقق أداءً رائدًا في العديد من مهام الفهم المنطقي المكاني.

في خلاصة الأمر، يمثل Spatial-MLLM خطوة كبيرة نحو تحسين ذكاء النماذج التي تعتمد على مدخلات بصرية ثنائية الأبعاد، فما هي آراؤكم حول هذه التطورات المثيرة؟ شاركونا في التعليقات.