تعتبر نماذج الرؤية واللغة (Vision-Language-Action Models) من الابتكارات التي غيرت وجه الذكاء الاصطناعي، لكنها لا تزال تعاني من مشاكل تتعلق بالمرونة عند التعامل مع المهام المعقدة. وفي سياق تطوير هذه النماذج، تم تقديم إطار جديد يُعرف باسم RePO-VLA، والذي يهدف إلى تحسين أدائها في المهام التي تتطلب تفاعلاً طويلاً وتعاملًا دقيقًا.

تُعاني هذه النماذج من عدم فاعليتها عند مواجهة السياقات الصعبة، حيث يُعتبر التعلم من الحالات الناجحة فقط غير كافٍ لتوجيه العمليات بشكل فعال. لذلك، تعتمد RePO-VLA على استراتيجيات جديدة تحدد أدوارًا مميزة لنماذج النجاح والتعافي والفشل.

تبدأ العملية بتطبيق خاصية تعرف باسم 'استعداد التعافي الآمن' (Recovery-Aware Initialization)، التي تقوم بتقسيم لحظات التعافي وإعادة تعيين التاريخ ليكون الاعتماد على الحالة الحالية بدلاً من الفشل السابق. بعد ذلك، يتم تعلم دالة قيمة دلالية (Progress-Aware Semantic Value Function) تتماشى مع ميزات المسارات الزمنية والتعليمات المرجعية الناجحة.

من خلال هذه الطريقة، يتم استعادة الأجزاء المفيدة من الفشل عن طريق تدهور الموثوقية، مما يساعد في تعليم الفرق بين الأفعال العادية والأخطاء والإجراءات التصحيحية. وعبر محرك البيانات، يتم تحويل الحالات السلبية إلى تجارب تصحيحية مُنتجة من قبل المخططين أو جمعها من البشر، مما يُعزز من عملية التعلم.

تستهدف RePO-VLA تحسين الإجراءات ذات التقدم العالي عبر ما يُعرف بـ 'تحسين القيم المشروطة' (Value-Conditioned Refinement)، مما يعزز من إمكانية التفاعل المثمر.

وفيما يتعلق بالتطبيق، تم ضبط قيمة ثابتة عالية تفضل الأفعال نحو المنظومة الناجحة المتعلمة، دون الحاجة إلى مستشعرات الفشل أو المحاولات التجريبية في الأداء.

أطلقت RePO-VLA أيضًا FRBench، الذي يوفر تقييمات معايير للإخفاق والتركيز على التعافي. عبر التجارب المحاكية والواقعية، أثبتت RePO-VLA قدرتها على تحسين القدرة على التصدي للتحديات، حيث ارتفعت نسبة النجاح المنقوصة من 20% إلى 75% في المتوسط، وفي التجارب الواقعية المتقدمة، وصلت إلى 80%.