في عالم الذكاء الاصطناعي، يمثل تعلم السلوكيات من خلال بيانات العرض تحدياً مهماً. فالكثير من النماذج المستندة إلى السلوك المدروس (Behavior Cloning) تتعلم أنماط سلوك غير مرغوب فيها قد تؤثر سلبًا على السيناريوهات الواقعية. لذلك، تم تطوير تقنية تسمى MoRE (Mode Redirection) لتحسين هذه العملية.

تقوم تقنية MoRE بتوجيه السياسات نحو سلوكيات مرغوبة عبر خطوة "إلغاء استنساخ" قصيرة، حيث يتم تقطير إشارة التوجيه من مصنف مؤقت إلى أوزان السياسة. هذا يضمن أن الاحتياطات المطلوبة للمحافظة على الكفاءة في الأنماط المرغوبة تتم بدون إضافة تحميل زمني إضافي.

التعليمات السابقة مثل تنسيق البيانات وتوجيه السلوك في زمن الاستدلال كانت تتطلب الوصول إلى عرض البيانات الأصلية لإعادة التدريب الكامل، مما كان يضيف أعباءً في الأداء. ومع ذلك، أثبتت تقنية MoRE فعاليتها عبر ثمانية مهام محاكاة وعالمية حقيقية، حيث تمكنت من تحسين معدل النجاح الإجمالي بـ 44 نقطة مئوية مقارنةً بالنموذج الأصلي المختلط.

كما تتسم تقنية MoRE بالمرونة، حيث يمكنها التعميم على عصي السياسة الروبوتية المختلفة، بما في ذلك Diffusion Policy وPi0.5 VLA، ومجموعة متنوعة من فئات المهام، مما يجعلها أداة قوية في مستقبل الذكاء الاصطناعي.

ما أهمية هذا التطور في مجال الذكاء الاصطناعي بالنسبة لك؟ شاركونا آراءكم وتجاربكم في التعليقات.