في عالم الذكاء الاصطناعي، يتمثل التحدي في كيفية تمكين الآلات من فهم الفضاء بشكل يشبه البشر. قدمت دراسة حديثة تدعى سبايسال أكت (SpatialAct) نموذجًا مبتكرًا لاستكشاف قدرات التفكير المكاني والتفاعل للموديلات المتقدمة (VLM) في مشاهد ثلاثية الأبعاد.
يتمتع البشر بقدرة فطرية على الإدراك المكاني وتكوين تمثيلات عقلية، مما يتيح لهم فهم العلاقات المكانية وترجمة هذا الفهم إلى أفعال ضمن بيئاتهم اليومية. ومع ذلك، على الرغم من الأداء الواعد للموديلات الحديثة في المهام الخاصة بالإدراك المكاني، تبقى التساؤلات قائمة حول قدرتها على تشكيل فهم مكاني متماسك والتفاعل معه بفعالية.
لتقييم هذه الجوانب، قدم الباحثون سبايسال أكت كمعيار متنوع مختبر، يركز على تقييم "التفكير المكاني المعتمد على الأفعال" في البيئات ثلاثية الأبعاد. من خلال التحديات مثل "التنقيح التفاعلي متعدد الخطوات"، يقوم النموذج الجديد بتفكيك العملية إلى مناطق محددة بما في ذلك "الكشف عن الأخطاء خطوة واحدة"، بالإضافة إلى خمس مهام أساسية لتشخيص أسباب فشل النموذج.
تكشف التجارب عن فجوة واضحة بين التفكير المكاني والأفعال: بينما تستطيع الموديلات القيام بمهام إدراك مكاني معزولة بشكل جيد، تعاني من صعوبة في الحفاظ على معتقدات مكانية متسقة وإنتاج أفعال موثوقة خلال التفاعل المتعدد الخطوات، مما يسلط الضوء على تراجع قدراتها مقارنة بالبشر.
تشير النتائج إلى أن وكالات VLM الحالية لا تزال تفتقر إلى تتبع حالة مكاني قوية تحت تغيرات البيئات الناتجة عن الأفعال، حتى مع تجريد التحكم على مستويات منخفضة. هل يمكن للذكاء الاصطناعي المواءمة بين الإدراك المكاني والتفاعل بشكل واقعي؟ هذا هو السؤال الذي يبحث عنه الباحثون بشكل مستمر.
سبايسال أكت: استكشاف قدرات الذكاء الاصطناعي في التفكير المكاني والتفاعل في مشاهد ثلاثية الأبعاد
تقدم دراسة جديدة حول نموذج سبايسال أكت (SpatialAct) رؤية عميقة حول كيفية تفكير الذكاء الاصطناعي في الفضاء المادي. على الرغم من التقدم الملحوظ في نماذج اللغة والرؤية، لا يزال هناك فجوة ملحوظة في قدرتها على التفاعل بشكل متماسك في بيئات ثلاثية الأبعاد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
