في خطوة متقدمة نحو تحسين تفاعل الروبوتات مع بيئتها ومعالجة الأمور المعقدة، تم الكشف عن SA-VLA، وهو مُشفّر وثيق الصلة بالأداء في نماذج الرؤية-اللغة-العمل (Vision-Language-Action Models) التي تستخدم في الروبوتات.

عادةً ما تواجه نماذج التشفير الحالية صعوبة في استعادة الأفعال المستمرة للروبوتات من الرموز المنفصلة، حيث يتجاهل معظمها الحالة الحركية الحالية للروبوت. هذه المشكلة تظهر بشكل خاص في أعمال التلاعب، حيث يمكن أن تتطلب نفس الإجراء الرمزي تحكمًا مستمراً مختلفاً وفقًا للنقاط العديدة مثل وضعية المفاصل، ومواضع الأجسام، وظروف الاتصال.

هنا يأتي دور SA-VLA، الذي يقدم مقاربة مبتكرة تعتمد على الحالة. يقوم SA-VLA بتكييف فك شفرة الأفعال بناءً على حالة الروبوت الحالية، مستخدمًا آليتين لتضمين الحالة في عملية التشفير.

الأولى تعتمد على الاهتمام المتبادل (cross-attention) بين الخصائص الحركية وحالة الروبوت، والثانية تستخدم مُعدّل حالات خفيف الوزن يتنبأ بالعوامل المنضبطة للأفعال. هذه الصيغة للأقتران توسع من دعم مجموعة رموز ثابتة، مما يسمح لكل رمز منفصل بتمثيل مجموعة من الأفعال المستمرة المرتبطة بالحالات المختلفة.

تطبيق SA-VLA في نماذج تعتمد على اللغات الكبيرة (Large Language Models) أظهر تحسينًا ملحوظًا في معدل النجاح خلال اثني عشر مهمة تلاعب، حيث ارتفعت النسبة من 0.29 إلى 0.56. وفي تجارب محاكاة إلى واقعية، حققت تقدمًا من 0.15 إلى 0.33.

هذه النتائج تشير إلى أن فك تشفير الأفعال المستند إلى الحالة يمثل آلية بسيطة وفعالة لتقليل الفجوة في ضغط البيانات داخل نماذج VLA المنفصلة. هل أنتم متحمسون لهذا التقدم في عالم الروبوتات؟ شاركونا آرائكم في التعليقات!