في عالم الذكاء الاصطناعي، تعتبر القدرة على التفكير المكاني أمراً أساسياً لوصول نماذج اللغات الضخمة المتعددة الوسائط (Multimodal Large Language Models - MLLMs) إلى مستوى أعلى في فهم بيئتنا. ومع ذلك، كانت معظم معايير التقييم الحالية تعتمد على أساليب تقييم سلبية أو مسارات محددة في محاكيات، مما يعني أنها لم تكن قادرة على قياس الفهم المكاني التفاعلي بشكل شامل.
هنا يأتي دور أحدث الابتكارات، SpatialWorld، وهي معيار موحد مبتكر يهدف إلى تقييم فهم الوكلاء المتعددين الوسائط للفضاء في مهام واقعية معقدة. تجمع هذه المنصة بين ثمانية محاكيات مختلفة تحت بروتوكول موحد يدعم عدم الاعتماد على محددات معينة، مما يجعلها أداة مثالية لفهم كيف يعمل الذكاء الاصطناعي في الظروف الحقيقية.
تتضمن SpatialWorld 760 مهمة تم تصنيفها من قبل البشر، تضم مجالات متنوعة مثل الروتين المنزلي، والسفر، والتعاون الاجتماعي. يتعين على الوكلاء حل المهام بينما يعتمدون على رؤية جزئية، مما يتطلب منهم جمع الأدلة البصرية والتعبير عن قراراتهم من خلال واجهة نصية موحدة.
عند تقييم 15 نموذجاً متقدماً، تبين أن حل المهام المكانية الصعبة لا يزال يمثل تحدياً كبيراً. فقد حقق النموذج الأقوى، GPT-5، معدل نجاح متوسط يبلغ 17.4% فقط، بينما وصل النموذج الرائد مفتوح المصدر، Qwen-3.5، إلى 14.1%.
تظهر التحليلات أن هناك تبايناً واضحاً بين نجاح المهام وكفاءة التنفيذ، مما يشير إلى احتياجات واضحة للتطوير في مجال الاستكشاف النشط والتخطيط على المدى الطويل. مع هذه التحديات، تعتبر SpatialWorld بمثابة مختبر صارم لوكلاء الفضاء المستقبليين، مما يمهد الطريق لفهم أعمق للتفاعل بين الذكاء الاصطناعي والعالم الحقيقي.
إطلاق SpatialWorld: معيار جديد لتقييم القدرة التفاعلية للذكاء الاصطناعي في المهام الواقعية!
تقدم SpatialWorld معياراً م Unified يهدف إلى تقييم الفهم المكاني التفاعلي لوكلاء الذكاء الاصطناعي في المهام الواقعية المعقدة. حتى الآن، لم تتمكن النماذج من تجاوز نسبة نجاح تتجاوز 17.4% في هذه التحديات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
