في عصر الذكاء الاصطناعي، باتت نماذج الرؤية واللغة والعمل (Vision-Language-Action models) تمثل واحدة من أكثر التقنيات الواعدة لتطوير الروبوتات وقدرتها على التفاعل مع محيطها. ومع ذلك، كانت معظم السياسات القائمة تعتمد على تقنيات تقليدية كالتقليد السلوكي أو التعديل الذي يعتمد على بيانات تدريب محددة.

وفي خطوة ثورية، قدم الباحثون نموذج ز-1 الذي يمثل إطارًا جديدًا للتعلم المعزز (Reinforcement Learning) ما بعد التدريب. هذا النموذج لا يعتمد إلا على تجارب الروبوتات السابقة في بيئة RoboCasa، ويطبق استراتيجية جديدة تعرف باسم تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization - GRPO) على مدار 24 مهمة قياسية.

ما يميز ز-1 هو الجمع بين تحسين الكفاءة والثبات في عمليات تحسين الأداء، حيث يعتمد على إنشاء مسارات شجرية للزمن، وهندسة المكافآت بشكل يتناسب مع إنهاء المهام، والتدريب المشترك الانتقائي بين خبراء اللغة والفعل.

أظهرت تجارب النموذج ز-1 نتائج مذهلة، حيث حقق معدل نجاح بلغ 80.6% في جميع المهام المدروسة، متفوقًا بفارق 13.2% على الطرق التقليدية. هذه النتائج تشير إلى أن تحسين نموذج GRPO يمكن أن يحسن بشكل كبير أداء نماذج VLA بدون الحاجة إلى بيانات خاصة إضافية.

هل تعتقد أن التعلم المعزز هو الحل المثالي لتحسين الذكاء الاصطناعي؟ شاركونا آراءكم!