في عالم الذكاء الاصطناعي، أصبح التعلم المعزز (Reinforcement Learning) عنصرًا أساسيًا لدفع نماذج الرؤية واللغة والأفعال (Vision-Language-Action Models) إلى ما يتجاوز مجرد التعلم الثابت. ولقد أظهرت الأبحاث الأخيرة وجود قدرات تقييم داخلية في نماذج VLA قد تكون أكثر فائدة مما كنا نعتقد. حيث أثبتت أن المسارات ذات الثقة العالية في التوليد لديها فرصة أكبر لتحقيق النجاح.

بناءً على هذه الملاحظة، قدم الباحثون نموذج T^2VLA (Test-time VLA)، وهو إطار تعليمي يمكن تنفيذه في وقت الاختبار، ويتميز بكونه غير معتمد على أي بنية محددة. هذا الإطار يتيح لنماذج VLA تحقيق تحسين السياسة بشكل ذاتي، وبديلاً عن الاعتماد على مكافآت خارجية، يستفيد T^2VLA من تشابه المسارات على مستوى عالٍ مع العروض الخبيرة ذات الثقة العالية.

يقدم T^2VLA أيضًا آلية تدعيم مزدوج تعتمد على الثقة، حيث تقوم بالتوازن الديناميكي بين خبير محلي مزيف للاستكشاف ومجموعة خبراء عالمية لضمان استقرار التدريب. وقد أظهرت التجارب المكثفة التي أجريت على مؤشرات LIBERO وRoboTwin أن T^2VLA يتفوق باستمرار على الأسس الإشرافية ويقترب من أداء المكافآت الحقيقية، مما يحقق تحسينًا فعّالًا دون حاجة لمكافآت خارجية.

وبالإضافة إلى ذلك، يتكيف T^2VLA مع أنماط VLA المختلفة، بما في ذلك OpenVLA-OFT وسلسلة pi، مما يفتح آفاقًا جديدة في شكل التعلم وتعزيز الأداء لكافة نماذج الذكاء الاصطناعي.