تعتبر تقنية التنقل القائم على الرؤية واللغة (Vision-and-Language Navigation - VLN) إحدى الركائز الأساسية للذكاء المجسد، حيث يجتمع فيها الرؤية الحاسوبية والتفاعل اللغوي لفهم العالم بطريقة أكثر ذكاءً. ولكن، تعاني الأنظمة الحالية من تدهور كبير في الأداء عند الانتقال من بيئات المحاكاة إلى العالم الحقيقي، وذلك بسبب عدم الاستقرار في الإدراك مثل تقلبات الإضاءة وضبابية الحركة، بالإضافة إلى التعليمات غير المحددة.

في ظل السعي لتجاوز هذه العقبات، تنطلق تقنية StereoNav، وهو إطار عمل مبتكر للجمع بين الرؤية واللغة والتنقل. قامت هذه التقنية بتقديم ما يسمى بـ Target-Location Priors كحلقة وصل مستمرة، والتي تقدم توجيهًا بصريًا ثابتًا يمكن الاعتماد عليه، حتى إن كانت التعليمات غامضة.

تستفيد هذه التكنولوجيا الحديثة من الرؤية الستيريو لبناء تمثيل موحد بين السيمantics (المعاني) والهندسة، مما يعزز القدرة على توقع الإجراءات بدقة من خلال تحسين الوعي بالعمق.

أظهرت التجارب التي أجريت على مجموعات البيانات R2R-CE وRxR-CE أن StereoNav حققت أداءً متميزًا بفضل تحقيقها لمعدل نجاح SR يبلغ 81.1% وSPL يصل إلى 68.3%، مع استخدام عدد أقل بشكل كبير من المعلمات والبيانات التدريبية مقارنة بالطرق السابقة. والأهم من ذلك، أثبتت التطبيقات الحقيقية لوحدة الروبوت في بيئات غير منظمة أنها تحسن بشكل كبير من موثوقية التنقل.

تتطلع الصناعة الآن إلى استخدام هذه الابتكارات لتعزيز وزيادة قدرة الروبوتات على التفاعل بشكل متزامن مع العالم المادي، مما يفتح آفاقًا جديدة لمستقبل التنقل الذكي.