لقد استغرق [تحويل](/tag/تحويل) البيئات المُعقدة للتعلم المعزز ([Reinforcement Learning](/tag/reinforcement-learning)) إلى تنفيذات عالية [الأداء](/tag/الأداء) تقليديًا شهورًا من [الهندسة](/tag/الهندسة) المتخصصة. لكننا نعيش الآن ثورة في هذا المجال!
تقدم [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) منهجية مغلقة (Closed-loop methodology) تُنتج بيئات متكافئة وعالية [الأداء](/tag/الأداء) بتكلفة [حوسبة](/tag/حوسبة) قليلة، مما يعني أنك تستطيع البدء في [تنفيذ](/tag/تنفيذ) مشروعك بكفاءة وسرعة أكبر.
تعتمد هذه المنهجية على [نموذج توجيه](/tag/[نموذج](/tag/نموذج)-[توجيه](/tag/توجيه)) عام، والتحقق الهرمي (Hierarchical verification) باستخدام [اختبارات](/tag/اختبارات) الخصائص والتفاعل، إضافة إلى [الإصلاح](/tag/الإصلاح) التكراري ونقل السياسة [عبر](/tag/عبر) الخلفيات المختلفة؛ وذلك لضمان عدم وجود أي فجوة بين المحاكيات (sim-to-sim gap).
تمثل هذه [الدراسة](/tag/الدراسة) ثلاثة تدفقات [عمل](/tag/عمل) متميزة [عبر](/tag/عبر) خمسة بيئات مختلفة:
1. **الترجمة المباشرة** (Direct translation): حيث تمت [ترجمة](/tag/ترجمة) محاكي Game Boy PyBoy إلى EmuRust الخاص بنا باستخدام [Rust](/tag/rust) IPC، وكذلك من Pokemon Showdown إلى PokeJAX باستخدام [JAX](/tag/jax).
2. **التحقق من الترجمة**: تم [التحقق](/tag/التحقق) من [الترجمة](/tag/الترجمة) مقابل تنفيذات [الأداء](/tag/الأداء) الموجودة، مثل Puffer Pong وMJX وBrax، مع تطابق أحجام دفعات [GPU](/tag/gpu).
3. **إنشاء بيئات جديدة**: تمثل TCGJax [البيئة](/tag/البيئة) الأولى الخاصة بلعبة TCG Pokémon، والتي تم إنشاؤها من [مواصفات](/tag/مواصفات) تم استخراجها من الويب.
مع 200 مليون معاملات، تقل نسبة الـ overhead الخاصة بالبيئة عن 4% من وقت [التدريب](/tag/التدريب). تؤكد منهجيتنا المغلقة التكافؤ في جميع البيئات الخمسة.
تُعتبر TCGJax، التي تم توليدها من مرجع خاص غير متوفر في مستودعات عامة، بمثابة [أداة](/tag/أداة) لمراقبة [مخاوف](/tag/مخاوف) [بيانات التدريب](/tag/[بيانات](/tag/بيانات)-[التدريب](/tag/التدريب)) المسبقة للعمالة.
كيف ترى هذه التطورات في عالم [التعلم الآلي](/tag/[التعلم](/tag/التعلم)-الآلي)؟ هل ستساهم هذه [الابتكارات](/tag/الابتكارات) في [تسريع](/tag/تسريع) مشاريعكم المستقبلية؟ شاركونا آراءكم!
ثورة في بيئات التعلم المعزز: كيف تُولد بيئات عالية الأداء بطريقة آلية؟
تقدم هذه الدراسة طريقة جديدة لخلق بيئات تعلّم معزز (Reinforcement Learning) عالية الأداء بسرعة وفعالية. تهدف هذه المنهجية إلى تقليص الوقت والتكلفة بحيث لا تتجاوز نسبة overhead 4% من وقت التدريب.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
