في عالم الذكاء الاصطناعي، تعد نماذج العالم (World Models) خطوة واعدة نحو فهم ديناميكيات البيئة بشكل أكثر دقة. هذه النماذج تمكن الروبوتات من تعامل مع التعقيدات، مثل التفاعلات الغير صلبة والمعلومات الحسية المعقدة، في مواقف تسجل فيها المحاكيات التقليدية صعوبة في الأداء. ومع ذلك، تظل المشاكل الحسابية المرتبطة بهذه النماذج الجديدة تحدياً أمام التقنيات الشائعة في التعلم المعزز (Reinforcement Learning) التي أثبتت نجاحها في التعامل مع المهام المتعلقة بالحركة ولكن تواجه صعوبات عند التعامل مع التلاعب بالأشياء.
تقدم ورقة البحث الجديدة طريقة مبتكرة تتجاوز تمامًا الحاجة إلى المحاكيات، من خلال تدريب سياسات التعلم المعزز داخل نماذج عالمية تم تعلمها من تفاعلات الروبوتات مع البيئات الحقيقية. يعتمد نهجنا على استخدام نماذج الانتشار واسعة النطاق عبر طريقة جديدة تُعرف باسم خوارزمية التدرج من الدرجة الأولى المفككة (Decoupled First-order Gradient, FoG). حيث تقوم النموذج العالمي بإنشاء مسارات دقيقة، بينما ي approximates نموذج محلي ديناميكية محلية للنظام، مما يعزز من كفاءة حساب التدرج.
التزاوج بين النموذجين المحلي والعالمي يضمن دقة عالية في التحليل مع إمكانية حساب سهلة. لقد أثبتنا فعالية طريقتنا من خلال مهمة دفع (Push-T) للتلاعب، حيث تفوقت بشكل كبير على أساليب مثل PPO في كفاءة العينات.
إضافة إلى ذلك، تم تقييم الطريقة الجديدة من خلال مهمة تلاعب بالأشياء من منظور الذات باستخدام روبوت رباعي الأرجل، مما يسلط الضوء على قدرات الروبوتات في tackling المهام التي يصعب نمذجتها في بيئات الصور بدون الاعتماد على المحاكيات التقليدية. هذه النتائج تدعم فكرة أن التعلم داخل نماذج العالم المعتمدة على البيانات هو طريق واعد لحل المهام المعقدة في العالم الحقيقي.
نموذجين عالميين ومحليين لتعزيز كفاءة التعلم المعزز (RL)!
يستعد الذكاء الاصطناعي لثورة جديدة مع استخدام نماذج عالمية ومحلية لتعزيز كفاءة التعلم المعزز. تخلص الباحثون من الحاجة للمحاكيات، مما يفتح آفاقًا جديدة للروبوتات في التحكم بالحركات المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
