في عالم التعلم المعزز، يعتبر تصميم هياكل الشبكات خطوة حاسمة، وعادةً ما يتم هذا العمل يدويًا. لكن، هل هناك طريقة لجعل هذه العملية أكثر كفاءة؟
تقدم لنا EVOM، الإطار المبتكر الذي يستخدم أسلوب "الميتا-تطور" (Meta-Evolution) للكشف عن هياكل Actor-Critic عالية الأداء. يتم معالجة البحث عن الهياكل من خلال عملية تحسين ذات مستويين:
- في الحلقة الداخلية، يتم تدريب الأوزان باستخدام تقنية "تحسين السياسة القريبة" (Proximal Policy Optimization - PPO).
- بينما الحلقة الخارجية تقود الميتا-تطور عبر تحسين تدريجي لبرامج الهياكل المُعتمدة.
ما يميز هذا النظام هو استخدامه لوكيل تصميم مدعوم بنموذج لغوي كبير (Large Language Model - LLM) يعمل كمدير لتصميم الهياكل، مما يجعله منفصلًا تمامًا عن تنفيذ السياسات والسيطرة على البيئة.
أظهرت التجارب أن EVOM يتفوق على التصاميم اليدوية، وعناصر البحث العشوائي المدعومة بـ LLM، بالإضافة إلى طريقة البحث البرمجية الحديثة MLES. الأداء الرائع الذي حققه هذا النظام على بيئتي Ant-v4 وHalfCheetah-v4 يعكس فعاليته.
الدراسات التي تم إجراؤها تثبت أن كل من حلقة الميتا-تطور ووكيل التصميم القائم على LLM هما عنصران لا غنى عنهما للحصول على أداء نهائي متفوق.
لا شك أن EVOM يمثل خطوة ثورية في مجال الذكاء الاصطناعي، حيث يفتح آفاقًا جديدة لتصميم أنظمة التعلم المعزز بشكل أكثر ذكاءً وفاعلية.
EVOM: ثورة جديدة في تصميم أنظمة التعلم المعزز باستخدام الذكاء الاصطناعي!
تقدم EVOM نظامًا متطورًا لتصميم هياكل التعلم المعزز، مما يحقق أداءً يفوق الطرق التقليدية. كيف يمكن لهذه الابتكارات أن تغير قواعد اللعبة في تقنيات الذكاء الاصطناعي؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
