في عالم الذكاء الاصطناعي، يعتبر مفهوم الرؤية النشطة (Active Vision) نقطة تحول كبيرة في تحسين تقنيات التعلم من المحاكاة (Imitation Learning). فقد أصبح من الواضح أن التحكم في النظرات (Gaze) خلال عمليات التحميل يمكن أن يعزز فعالية النماذج بشكل كبير. لكن لا يوجد حتى الآن معيار موحد يقارن بين الأساليب المختلفة أو يحدد ما تسهم به الرؤية النشطة في أنواع المهام المختلفة وشروطها.

هنا يأتي دور TAVIS، وهو بنية تحتية جديدة للتقييم في التعلم من خلال المحاكاة تعتمد على الرؤية النشطة. يشتمل TAVIS على مجموعتين من المهام التكميلية: TAVIS-Head التي تحتوي على خمس مهام تتعلق بالبحث العام عن طريق تحركات الرأس، وTAVIS-Hands التي تحتوي على ثلاث مهام تتعلق بالاحتجاب المحلي باستخدام كاميرات المعصم. تم بناء هذه المهام على نموذجين إنسانيين، هما GR1T2 وReachy2، في معمل آيزاك (IsaacLab).

تقدم TAVIS ثلاثة مقاييس تقييم أساسية: بروتوكول مقارنة بين كاميرات الرأس وكاميرات ثابتة على نفس العروض التوضيحية؛ قياس الزمن القيادي للتوقعات البصرية (Gaze-Action Lead Time) الذي يُعتبر مقياسًا جديدًا يعتمد على علوم الإدراك وتفاعل الإنسان مع الروبوتات؛ وتقسيمات عملية لتحديد المهام.

أظهرت التجارب الأولية مع سياسة الانتشار (Diffusion Policy) أن الرؤية النشطة تعزز الأداء بصفة عامة، لكن الفوائد تختلف باختلاف المهام. كما أظهرت نتائج أن السياسات متعددة المهام تتأثر سلبًا عندما يتم التلاعب بتوزيع المهام بشكل متحكم فيه. علاوة على ذلك، أظهرت التجارب أن التعلم من خلال المحاكاة بمفرده يمكن أن ينتج عنه توقعات بصرية، مع أوقات قيادية متوسطة تقارن بتلك التي يبديها المشغل البشري.

يمكن استكشاف الشفرات، وإجراءات التقييم، والعروض التوضيحية عبر الروابط المتاحة على GitHub وHugging Face، حيث تم توفير ما يقارب 2200 حلقة للمستخدمين للاستفادة منها.