في عالم الذكاء الاصطناعي، تبرز نماذج اللغة المرئية (Vision Language Models - VLMs) كأداة قوية تساعد في معالجة مجموعة متنوعة من المهام البصرية من خلال تفاعلات بسيطة. ومع ذلك، رغم النجاح المتحقق في الفهم الدلالي، فإن الفهم الثلاثي الأبعاد لا يزال يعتمد بشكل كبير على نماذج بصرية معقدة مصممة بشكل خاص.
تأتي الدراسة الجديدة لتقدم نموذج VLM3، الذي يدعي أنه متعلم ثلاثي الأبعاد بالفطرة. توضح النتائج من دراسة واسعة النطاق أن عدة عوامل تلعب دورًا رئيسيًا في تحسين التعلم الثلاثي الأبعاد، وذلك دون الحاجة إلى تغييرات معمارية معقدة أو نماذج ضخمة.
تتضمن تلك العوامل: 1) توحيد بؤرة التركيز، 2) الإشارة البيكسلية المعتمدة على النص، و3) خلط البيانات وتوسيعها. من خلال هذه النهج البسيط، يمكن لنموذج VLM3 تعزيز دقة تقدير العمق (Depth Estimation) بشكل مذهل، حيث ارتفعت من 0.84 إلى 0.9.
إضافة إلى ذلك، يتيح VLM3 أداء مهام ثلاثية الأبعاد متنوعه مثل صلة البيكسلات، تقدير وضع الكاميرا، فهم الأجسام على مستوى ثلاثي الأبعاد، متجاوزًا دقة نماذج الرؤية التقليدية مع الحفاظ على البنية القياسية والتدريب المعتمد على النصوص.
نعتقد أن هذا النموذج ليس مجرد تحسين، بل يمثل نقطة انطلاق لنهج جديد في التعلم الثلاثي الأبعاد، حيث يقدم نموذجًا بسيطًا وقابلًا للتوسع يمكن أن يساهم في تطوير التكنولوجيا بشكل أسرع وأكثر كفاءة.
ثورة في التعلم الثلاثي الأبعاد: نموذج VLM3 يغير قواعد اللعبة!
تقدم الدراسة الجديدة نموذج VLM3 كحل مبتكر لتحسين الفهم الثلاثي الأبعاد باستخدام نماذج اللغة والرؤية. النهج الجديد يعد بتعزيز دقة التقدير بينما يبسط التصميم، مما يفتح آفاقًا جديدة في التعلم الثلاثي الأبعاد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
