في تطور مثير في عالم الذكاء الاصطناعي، تم تقديم إطار عمل جديد يحمل اسم GeoVR، مصمم خصيصًا لتعزيز نماذج اللغة متعددة الوسائط (Multimodal Large Language Models - MLLMs). على الرغم من أن هذه النماذج تتمتع بقدرة رائعة على فهم المعاني ثنائية الأبعاد، إلا أنها كانت تفتقر إلى الوعي ثلاثي الأبعاد الضروري للحفاظ على الاتساق الهندسي والمكاني عبر إطارات الفيديو المختلفة.
مع ندرة البيانات ثلاثية الأبعاد ذات النطاق الواسع، ينجح Framework GeoVR في إعادة تنظيم الفضاء الكامن الدلالي داخل هذه النماذج بطريقة تعتمد على مقاطع الفيديو الثنائية الأبعاد فقط. وبعكس الطرق السطحية التي تعتمد على خلط الميزات، يقوم GeoVR بإعادة تشكيل التمثيلات الداخلية لنموذج MLLM من خلال استخراج المعرفة الهندسية من نماذج أساس ثلاثية الأبعاد تم تدريبها مسبقاً.
تستند هذه التقنية إلى استراتيجية تعلم متعددة الأهداف تتضمن أربعة أهداف هندسية تكاملية، وهي: (1) تقدير أوضاع الكاميرا بين الإطارات المختلفة لضمان تغطية ديناميكيات وجهة النظر المتغيرة، (2) استنتاج خرائط عمق كثيفة لتحديد المسافات الفيزيائية، (3) التنبؤ بعامل قياس مقياسي لتوافق النماذج مع العالم الحقيقي، و(4) استخراج ميزات ثلاثية الأبعاد متعددة المقاييس لمحاذاة الفضاء الميزاتي الوسيط.
من خلال توجيه التمثيلات الداخلية بواسطة هذه القيود الفيزيائية والهندسية الواضحة، يتمكن النموذج من تطوير وعي ثلاثي الأبعاد قوي. وقد أظهرت التجارب الواسعة التي أجريت على معايير التفكير المكاني أن GeoVR قد حقق أداء رائد، مرسخًا بذلك نموذجًا جديدًا لمنح نموذج الأساس قدرات الذكاء المكاني.
هل تعتقد أن هذه التطورات سوف تغير طريقة تعاملنا مع الذكاء الاصطناعي في المستقبل؟ شاركونا آراءكم في التعليقات!
ثورة جديدة في الذكاء الاصطناعي: تعلم التمثيلات الهندسية من مقاطع الفيديو لتعزيز نماذج اللغة متعددة الوسائط!
تقدم GeoVR إطارًا مبتكرًا يمكّن نماذج اللغة متعددة الوسائط من تعزيز الوعي ثلاثي الأبعاد باستخدام مقاطع الفيديو الثنائية الأبعاد فقط. تفوق هذا الابتكار في اختبار الذكاء المكاني، محدثًا نقلة نوعية في فهم المعاني الهندسية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
