في عالم الذكاء الاصطناعي، تبرز نماذج اللغة المرئية (Vision Language Models - VLMs) كأداة قوية تساعد في معالجة مجموعة متنوعة من المهام البصرية من خلال تفاعلات بسيطة. ومع ذلك، رغم النجاح المتحقق في الفهم الدلالي، فإن الفهم الثلاثي الأبعاد لا يزال يعتمد بشكل كبير على نماذج بصرية معقدة مصممة بشكل خاص.

تأتي الدراسة الجديدة لتقدم نموذج VLM3، الذي يدعي أنه متعلم ثلاثي الأبعاد بالفطرة. توضح النتائج من دراسة واسعة النطاق أن عدة عوامل تلعب دورًا رئيسيًا في تحسين التعلم الثلاثي الأبعاد، وذلك دون الحاجة إلى تغييرات معمارية معقدة أو نماذج ضخمة.

تتضمن تلك العوامل: 1) توحيد بؤرة التركيز، 2) الإشارة البيكسلية المعتمدة على النص، و3) خلط البيانات وتوسيعها. من خلال هذه النهج البسيط، يمكن لنموذج VLM3 تعزيز دقة تقدير العمق (Depth Estimation) بشكل مذهل، حيث ارتفعت من 0.84 إلى 0.9.

إضافة إلى ذلك، يتيح VLM3 أداء مهام ثلاثية الأبعاد متنوعه مثل صلة البيكسلات، تقدير وضع الكاميرا، فهم الأجسام على مستوى ثلاثي الأبعاد، متجاوزًا دقة نماذج الرؤية التقليدية مع الحفاظ على البنية القياسية والتدريب المعتمد على النصوص.

نعتقد أن هذا النموذج ليس مجرد تحسين، بل يمثل نقطة انطلاق لنهج جديد في التعلم الثلاثي الأبعاد، حيث يقدم نموذجًا بسيطًا وقابلًا للتوسع يمكن أن يساهم في تطوير التكنولوجيا بشكل أسرع وأكثر كفاءة.