في ظل التطورات المتسارعة في مجال نماذج اللغات متعددة الوسائط (MLLMs)، تمكن الباحثون من إيجاد حلول متعددة لتحسين الأداء في المهام البصرية والتي تعتمد على الصور والفيديوهات. ولكن السؤال المطروح هو: كيف يمكننا تعزيز الذكاء المكاني (Spatial Intelligence) لهذه النماذج، خاصة عند الاعتماد فقط على مدخلات ثنائية الأبعاد؟
هنا يأتي دور Spatial-MLLM، الإطار الجديد الذي يعزز القدرات البصرية من خلال معالجة المشاكل القائمة في النماذج الحالية. تعتمد الكثير من نماذج الـ 3D MLLMs على بيانات إضافية ثلاثية الأبعاد أو نصف ثنائية الأبعاد، مما يقيد فائدتها في سيناريوهات معينة تقتصر على مدخلات 2D.
يبرز هذا الإطار بنموذج هندسي بائس يقوم بإطلاق القوة المعلوماتية من نموذج الهندسة البصرية المجرب. يعتمد الهيكل على بنية مزدوجة المحولات: حيث يتم استخراج الميزات الدلالية بواسطة مشفر بصري مدرب مسبقًا بالأبعاد الثنائية، بينما يستخلص مشفر ذي أبعاد ثلاثية الميزات الهيكلية. هذه الاستراتيجية تُمكّن من دمج الميزات المختلفة في رموز بصرية موحدة لتحسين الفهم المكاني.
بالإضافة إلى ذلك، يُقدم الإطار استراتيجية مبتكرة لاختيار إطارات الفيديو المدروسة، مما يضمن أن النموذج يركز على العناصر الأكثر أهمية أثناء عمليات الاستنتاج. تجارب موسعة على مجموعة من البيانات الحقيقية أثبتت أن Spatial-MLLM يحقق أداءً رائدًا في العديد من مهام الفهم المنطقي المكاني.
في خلاصة الأمر، يمثل Spatial-MLLM خطوة كبيرة نحو تحسين ذكاء النماذج التي تعتمد على مدخلات بصرية ثنائية الأبعاد، فما هي آراؤكم حول هذه التطورات المثيرة؟ شاركونا في التعليقات.
ثورة جديدة في الذكاء الاصطناعي: Spatial-MLLM يعزز القدرات البصرية في الذكاء الفضائي!
تم تقديم Spatial-MLLM، الإطار الجديد الذي يمكّن نماذج اللغات متعددة الوسائط من فهم المميزات البصرية في البيئات ثنائية الأبعاد. يركز هذا الإطار على تحسين الذكاء المكاني باستخدام مدخلات ثنائية الأبعاد فقط.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
