إعادة تعريف تحسين السياسات في الذكاء الاصطناعي: القضاء على الاعتماد على القواعد

Q: ما هو موضوع مقال "إعادة تعريف تحسين السياسات في الذكاء الاصطناعي: القضاء على الاعتماد على القواعد"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "إعادة تعريف تحسين السياسات في الذكاء الاصطناعي: القضاء على الاعتماد على القواعد" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي، يعكف الباحثون على إيجاد حلول جديدة لمشاكل تحسين السياسات، خاصة في مجال تحسين التركيب العصبي (Neural Combinatorial Optimization). حيث تتطلب التقنيات التقليدية، مثل خوارزمية REINFORCE مع قاعدة التصحيح، الحفاظ على نسخة ثابتة من السياسة لتقليل التفاوت. هذه الطريقة تواجه مشكلة رئيسية، خصوصاً عند التعامل مع حالات أكثر تعقيداً، حيث تؤدي القواعد الضعيفة إلى تقديرات متباينة قد تُعيق عملية التدريب.

تقدم دراسة جديدة خوارزمية مبتكرة تحت اسم Group Relative Policy Optimization (GRPO)، تعتمد على مبدأ تقليل العوامل السلبية من خلال تطبيع الفوائد ضمن مجموعات مسارات مختارة. من خلال مقارنة خاضعة للرقابة بين خمس خوارزميات تعلم معزز في إططار RL4CO، تم اختبار الخوارزمية الجديدة على مجموعة من مشكلات التحسين، مثل مشكلة البائع المتجول (TSP) ومشكلة سعة مركبات النقل (CVRP).

تسرد النتائج مجموعة من المزايا، منها:
1. تجنبت خوارزمية GRPO الانهيار التدريبي الذي شهده نظام REINFORCE على TSP-100، حيث تدهور الأداء فجأة بعد مرحلة التحضير.
2. عند نفس التحديثات في التقدير، كانت جودة الحلول المحققة من قبل GRPO في حدود 2% من حل خوارزمية POMO، دون الحاجة إلى أي قاعدة خارجية.
3. كذلك، تبين أن خوارزمية P3O، المعتمدة على تفضيلات ثنائية، تنافس على TSP ولكنها تُظهر تبايناً أكبر في CVRP.

تشير هذه النتائج إلى أن GRPO قد تكون البديل الواعد لطرق تحسين السياسات المعتمدة على القواعد، خصوصاً في الحالات التي يصبح فيها التدريب هشاً بسبب الاعتماد على القواعد. لذا، ما هي التحديات التي تعتقدون أنها قد تواجه هذه الخوارزمية الجديدة؟ شاركونا آراءكم في التعليقات.

إعادة تعريف تحسين السياسات في الذكاء الاصطناعي: القضاء على الاعتماد على القواعد

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!

أوبن أيه آي تستحوذ على شركة هيرو لتكنولوجيا التمويل الشخصي: خطوة نحو التخطيط المالي الذكي!