ثورة في تعلم الآلة: تحسين سياسات متعددة الأهداف باستخدام تكنولوجيا Tchebycheff الديناميكية

تشكل البيئة الديناميكية للروبوتات تحدياً حقيقياً عند محاولة الموازنة بين أهداف متعددة تتسم بالتعارض. في هذا السياق، تعتبر خوارزميات التعلم المعزز المتعدد الأهداف (Multi-objective Reinforcement Learning) أداة حيوية، لكن تحقيق التوازن بين الاستقرار والكفاءة يعتبر أمراً صعباً.

الحلول التقليدية، مثل طرق التماثل الخطي (Linear Scalarization)، على الرغم من أنها توفر استقراراً، إلا أنها تفشل وقتما يتعلق الأمر بالوصول إلى الحلول ضمن المناطق غير المتناهية من جبهة باريتو (Pareto Front). بينما توفر الطرق غير الخطية الثابتة مثل Tchebycheff إمكانية الوصول إلى هذه المناطق، إلا أنها عادة ما تعاني من تباين كبير في التدرجات وعدم الاستقرار خلال التعلم العميق.

في هذه الدراسة الجديدة، تم تقديم إطار عمل Adaptive Smooth Tchebycheff الذي يقدم حلاً ديناميكياً، حيث يقوم بتعديل انحناء مجال优化 عبر التحكم في سلاسة التهيئة بناءً على تداخل التدرجات في الوقت الحقيقي. هذا الابتكار يمكّن العميل من الانسياب نحو تكاملات غير متقاربة بدقة عندما تتوافق الأهداف، مع الرجوع بمرونة إلى تقديرات مستقرة وسلسة أثناء ظهور صراعات تدرجات مدمرة.

تم اختبار الاقتراح في مهمة صعبة تتعلق بالبحث البصري السري للروبوتات، والتي تمثل خطوة مهمة في مراقبة النظم البيئية المحمية والضعيفة. حيث يتعين على الوكيل تحقيق توازن بين البحث، وتقليل التعرض، وسرعة الاستكشاف.

تؤكد النتائج التجريبية أن التكيف المدرك للصراعات قد أتاح اكتشاف سياسات Pareto المثالية بشكل قوي في المناطق غير المتناهية، وهو أمر غير متاح للطرق الخطية وغير المستقرة.

ثورة في تعلم الآلة: تحسين سياسات متعددة الأهداف باستخدام تكنولوجيا Tchebycheff الديناميكية

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

كيف أسست OpenAI عالماً آمناً لبرمجة كودكس على ويندوز؟

جيل زد: رواد فهم جديد للحقيقة في عصر التواصل الاجتماعي!

ابتكار مذهل: تقنية تدريب جديدة تسرع نماذج الذكاء الاصطناعي حتى 2.5 مرة!