ثورة جديدة في الذكاء الاصطناعي: تعلم التمثيلات الهندسية من مقاطع الفيديو لتعزيز نماذج اللغة متعددة الوسائط!

Q: ما هو موضوع مقال "ثورة جديدة في الذكاء الاصطناعي: تعلم التمثيلات الهندسية من مقاطع الفيديو لتعزيز نماذج اللغة متعددة الوسائط!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "ثورة جديدة في الذكاء الاصطناعي: تعلم التمثيلات الهندسية من مقاطع الفيديو لتعزيز نماذج اللغة متعددة الوسائط!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في تطور مثير في عالم الذكاء الاصطناعي، تم تقديم إطار عمل جديد يحمل اسم GeoVR، مصمم خصيصًا لتعزيز نماذج اللغة متعددة الوسائط (Multimodal Large Language Models - MLLMs). على الرغم من أن هذه النماذج تتمتع بقدرة رائعة على فهم المعاني ثنائية الأبعاد، إلا أنها كانت تفتقر إلى الوعي ثلاثي الأبعاد الضروري للحفاظ على الاتساق الهندسي والمكاني عبر إطارات الفيديو المختلفة.

مع ندرة البيانات ثلاثية الأبعاد ذات النطاق الواسع، ينجح Framework GeoVR في إعادة تنظيم الفضاء الكامن الدلالي داخل هذه النماذج بطريقة تعتمد على مقاطع الفيديو الثنائية الأبعاد فقط. وبعكس الطرق السطحية التي تعتمد على خلط الميزات، يقوم GeoVR بإعادة تشكيل التمثيلات الداخلية لنموذج MLLM من خلال استخراج المعرفة الهندسية من نماذج أساس ثلاثية الأبعاد تم تدريبها مسبقاً.

تستند هذه التقنية إلى استراتيجية تعلم متعددة الأهداف تتضمن أربعة أهداف هندسية تكاملية، وهي: (1) تقدير أوضاع الكاميرا بين الإطارات المختلفة لضمان تغطية ديناميكيات وجهة النظر المتغيرة، (2) استنتاج خرائط عمق كثيفة لتحديد المسافات الفيزيائية، (3) التنبؤ بعامل قياس مقياسي لتوافق النماذج مع العالم الحقيقي، و(4) استخراج ميزات ثلاثية الأبعاد متعددة المقاييس لمحاذاة الفضاء الميزاتي الوسيط.

من خلال توجيه التمثيلات الداخلية بواسطة هذه القيود الفيزيائية والهندسية الواضحة، يتمكن النموذج من تطوير وعي ثلاثي الأبعاد قوي. وقد أظهرت التجارب الواسعة التي أجريت على معايير التفكير المكاني أن GeoVR قد حقق أداء رائد، مرسخًا بذلك نموذجًا جديدًا لمنح نموذج الأساس قدرات الذكاء المكاني.

هل تعتقد أن هذه التطورات سوف تغير طريقة تعاملنا مع الذكاء الاصطناعي في المستقبل؟ شاركونا آراءكم في التعليقات!

ثورة جديدة في الذكاء الاصطناعي: تعلم التمثيلات الهندسية من مقاطع الفيديو لتعزيز نماذج اللغة متعددة الوسائط!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في الذكاء الاصطناعي: Salesforce تطلق Slackbot المتطور لمنافسة Microsoft وGoogle في عالم الأعمال

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!