في عالم الروبوتات، تعد القدرة على التعلم بكفاءة وموثوقية من أكبر التحديات التي تواجه الباحثين. أثبتت نماذج الرؤية-اللغة-الإجراء (Vision-Language-Action) قدرتها العالية على التعميم عبر مجموعة متنوعة من المهام، ومع ذلك، كانت السياسات المدربة مسبقاً تعاني من نقص في الاعتمادية الضرورية للتطبيقات الواقعية.

يقدم نظام EXPO-FT حلاً مبتكراً لتجاوز هذه المشكلة، حيث يوفر تحسيناً مستداماً وفعالاً لتقنيات التعلم المعزز (Reinforcement Learning) للسياسات المدربة مسبقاً. وتعتمد هذه المنظومة على حل مجموعة من التحديات المعقدة في تنفيذ المهام، مثل تركيب الأضواء المتسلسلة وإدخال المقبس لتشغيلها، أو إرسال كرة بلياردو إلى جيب، وإدخال زهرة في زجاجة نبيذ، وكل ذلك يتطلب دقة عالية وحركات ديناميكية وقدرة على التكيف مع حالات البداية المختلفة.

تمكن نظام EXPO-FT من تحقيق أداء مثالي، حيث نجح في 30 من أصل 30 مهمة مقيمة، وذلك في فترة زمنية متوسطة تبلغ 19.1 دقيقة من بيانات الروبوت الحية. وتجاوزت هذه النتائج المتحققة أداء تقنيات التعلم المعزز المدربة من الصفر وكذلك تقنيات تحسين نماذج VLA السابقة.

لتمكين الباحثين والمطورين من الاستفادة من هذا التقدم، تم إطلاق قاعدة بيانات مفتوحة المصدر، مما يسهل الاعتماد الأوسع لتقنيات تحسين التعلم المعزز لنماذج الرؤية-اللغة-الإجراء في مجالات الروبوتات.