تظل عملية الاستدلال المكاني (Spatial Reasoning) تحديًا مستمرًا لنماذج اللغة الكبيرة متعددة الأنماط (Multimodal Large Language Models - MLLMs). غالبًا ما تستند الأساليب الحالية إلى مجموعات بيانات ضخمة ومعدة مسبقًا، حيث يتم التعامل مع جميع عينات التدريب بشكل موحد دون الأخذ في الاعتبار تطور قدرات النموذج. هذه الطريقة الثابتة تعاني من عدم كفاءة البيانات: حيث تُستَنفَد قدرات التدريب على عينات قد تكون مملة أو صعبة للغاية بالنسبة للنموذج في مرحلته الحالية.
للتغلب على هذه القيود، نقدم مفهوم أوروبوروس-سبيشال، وهو إطار تدريب يتطور ذاتيًا يقوم فيه النموذج بأدوار مزدوجة كعامل مُقترح وحل. في كل تكرار، يقوم المُقترح الثابت بإنشاء أزواج من الأسئلة والأجوبة المتعلقة بالمكان (QA) من بيانات المشهد ثلاثي الأبعاد (3D Scene Metadata) وإطارات الفيديو الخام، مع توفير رمز تنفيذي لاستنتاج الحقيقة الموثوقة.
ثم يتم ضبط المُحلّل القابل للتعلم على العينات المقبولة، ويُستخدم مستوى الثقة في التنبؤ لكل عينة كإشارة صعوبة. تغذي هذه الإشارة المُقترح في التكرار التالي، مما يوجهه لإنشاء أسئلة تتناسب بشكل أفضل مع القدرات الحالية للمحلل. من خلال هذا التصميم المغلق للدائرة، تتطور توزيع البيانات بالتوازي مع قدرة النموذج، مما يقلل من الأمثلة التافهة ويصفّي العينات الغامضة أو غير المفيدة ذات القيمة التعليمية المحدودة.
عبر ستة معايير لاستدلال المكان، تحسّن أوروبوروس-سبيشال بشكل ملحوظ الأداء لنموذجي Qwen3-VL-4B وQwen3-VL-8B، مستخدمةً عددًا أقل بكثير من عينات التدريب مقارنة بمجموعات البيانات الكبيرة المعدة مؤخرًا. في تأثيرات معيار VSI-Bench، قدمت زيادة مطلقة قدرها 9.9 و6.8 نقطة لنماذج 4B و8B على التوالي، ما يمكن كليهما من التفوق على مجموعة واسعة من المعاير القوية مفتوحة المصدر والخاصة.
هل أنتم متحمسون لرؤية كيف ستغير هذه التقنيات مستقبل استدلال الفضاء؟ شاركونا آرائكم في التعليقات!
أوروبوروس-سبيشال: ثورة في استدلال الفضاء من خلال تحسين البيانات والنماذج
تقدم تقنية أوروبوروس-سبيشال نموذجًا جديدًا لتدريب الذكاء الاصطناعي يجمع بين الذكاء الذاتي وتحسين البيانات. من خلال هذا النظام، يتم تحسين كفاءة النموذج في استدلال الفضاء بشكل كبير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
