تشكل الاستكشافات باستخدام استراتيجيات محددة أحد العناصر الأساسية في تدريب وكلاء الذكاء الاصطناعي على التنقل بواسطة الرؤية ولغة التعليمات. ومع ذلك، قد تخرج تلك الاستكشافات عن نطاق التعليمات الموجهة، مما يؤدي إلى تفاوت بين ما يدركه الوكيل وما هو مطلوب منه. في هذا السياق، يظهر نموذج Phi-Nav كحل مبتكر يهدف إلى ردم الفجوة المعرفية بين التعليمات وقادة التنقل.

فمن خلال إطار عمل موحد يعتمد على ثلاث مراحل، يتيح Phi-Nav للنموذج استخدام التفكير بأثر رجعي لتعزيز تجربة التعلم. المرحلة الأولى تتضمن استكشاف موجه بواسطة المعلومات المستندة إلى الخبراء. في المرحلة الثانية، يتم صياغة تعليمات جديدة تتماشى مع الملاحظات البصرية التي جمعها الوكيل، وأخيراً، يقوم الوكيل بإجراء جولة ثانية من المحاكاة مع التركيز على التعليمات التي تم إنشاؤها حديثاً.

تدعم النتائج التجريبية على معايير مثل R2R-CE وRxR-CE أداء Phi-Nav بشكل استثنائي، حيث أظهرت البيانات أنه يمكن أن يحقق نتائج تنافسية مع استخدام كمية أقل من البيانات المقارنة التقليدية. يعكس ذلك الحاجة المتزايدة لاستكشاف المعاني في التعلم اللغوي المرئي، مما يجعل Phi-Nav نموذجاً فعالاً لتدريب الوكلاء في بيئات منخفضة البيانات.