في عالم الذكاء الاصطناعي، يعتبر تعلم سياسة الروبوتات (Robot Policy Learning) أحد التحديات الكبرى التي تواجه المطورين والباحثين. ورغم أن جمع البيانات التجريبية لتعليم الروبوتات قد يكون مكلفاً، إلا أن وجود تعليقات لغوية فعالة يمكن أن يعد بمثابة المفتاح لتحسين الأداء. في هذا السياق، تبرز تقنية جديدة تدعى DeMiAn (Dense Multi-aspect Annotation) كمقاربة مبتكرة للاستفادة من تعليقات لغوية كثيفة.

تتضمن هذه الطريقة المبتكرة مرحلتين: في المرحلة الأولى، يتم إعادة تصنيف مقاطع التعليم باستخدام تعليقات تعتمد على نماذج اللغة الضخمة (Large Language Models) تغطي جوانب متعددة تشمل الحركة الجسدية، تكوين المشاهد، وضع الأذرع، والتفكير. في المرحلة الثانية، تقوم خوارزمية التعلم بترجمة وصف المهمة وصورة المشهد الأولي إلى تعليق مناسب ضمن سياق المهمة، مما يضمن استمرارية التنفيذ والعرض بصورة سلسة حيث لا تُعطل العملية.

تجارب تمت على أكثر من مليون مقطع لعمليات الروبوت و50 ألف فيديو بشري مأخوذ من منظور الذات (EgoVerse)، أظهرت نتائج مذهلة. حيث أدت استخدام DeMiAn إلى تحسين سياسات الرؤية-اللغة-الفعل (Vision-Language-Action Policy) والنموذج القائم على الفيديو (Video-based World-Action Model) دون الحاجة لجمع بيانات جديدة.

على سبيل المثال، في تجربة RoboCasa، حقق النظام تحسنًا في نسبة النجاح بمقدار خمس نقاط مقارنة بالاستناد إلى المهام التقليدية، ليقترب من تحقيق مستوى مثالي تقريباً.

الجدير بالذكر أن اختيار التعليقات اللغوية المناسبة من بين الجوانب الكثيرة كان له دور كبير في تحقيق نتائج إيجابية، مما يؤكد على أهمية التدقيق في استخدام اللغة في السياقات التكنولوجية. بهذه النتائج، تصبح إعادة التصنيف الكثيف أداة عملية وفعالة لتوسيع نطاق تعلم سياسة الروبوتات وتحسين أدائها بشكل كبير.

ما رأيكم في استخدام التعليقات اللغوية لتحسين أداء الروبوتات؟ شاركونا في التعليقات!