تعتبر التنقلات التي تعتمد على الرؤية واللغة (Vision-Language Navigation - VLN) واحدة من أبرز الابتكارات في مجال الذكاء الاصطناعي، حيث تمكّن هذه التقنية الوكلاء المجسدين من الوصول إلى مواقع مستهدفة في بيئات غير مرئية عبر اتباع التعليمات اللغوية. ورغم التقدم الملحوظ في نماذج الرؤية واللغة (Vision-Language Models - VLMs)، إلا أنه لا يزال هناك فجوة حرجة بين السمات الهندسية واللغوية، حيث تتفوق هذه النماذج في فهم اللغة والصور ثنائية الأبعاد، لكنها تعاني من الصعوبات في فهم الفضاء ثلاثي الأبعاد، مما يؤثر على موثوقية التنقل خاصة عند غياب المعلومات الأساسية.

لجسر هذه الفجوة، تم اقتراح خريطة هيكلية سماتية-هندسية (Hierarchical Semantic-Geometric Map - HSGM) التي تهدف إلى تحويل المعلومات الهندسية ثلاثية الأبعاد إلى تمثيل منظم متوافق مع نماذج الرؤية واللغة. وهنا تظهر الفائدة الكبيرة للخريطة؛ حيث يتم تنظيمها في ثلاثة مستويات:
1. **المستوى الهندسي**: يسجل المناطق القابلة للتنقل والعوائق
2. **المستوى السماتي**: يمثل الأجسام وعلاقاتها
3. **مستوى القرار**: يدعم التفكير عالي المستوى في المهام واختيار الأهداف

خلال عملية التنقل، تعمل VLM كخطط سماتية عالية المستوى، موفرةً تفسيرًا لتخطيط الفضاء الموجود في HSGM لاختيار نقاط الطريق الهندسية السليمة. بينما يقوم خوارزمية تخطيط المسار الكلاسيكية بتنفيذ الحركات ذات الطاقة المنخفضة وبدون تصادم بين نقاط الطريق. كما يتم تفكيك التعليمات المعقدة إلى مهام فرعية، مما يخفف من مشكلة النسيان أثناء التقدم أو الخيال في التنقلات الطويلة.

تم تنفيذ تجارب موسعة على معايير R2R-CE وRxR-CE، حيث أظهرت نتائج إطار العمل لدينا المبتكر أداءً يتفوق حتى على عدة طرق مُراقبة. لمزيد من المعلومات، يمكن الوصول إلى الشيفرة المصدرية على الرابط مشروع GitHub.

إن تطور هذه التقنية لا يمثل مجرد خطوة في عالم الذكاء الاصطناعي، بل ثورة في كيفية التعامل مع الفضاءات ثلاثية الأبعاد، مما يفتح آفاقًا جديدة في مجالات متعددة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!