في عالم الذكاء الاصطناعي، يعكف الباحثون على إيجاد حلول جديدة لمشاكل تحسين السياسات، خاصة في مجال تحسين التركيب العصبي (Neural Combinatorial Optimization). حيث تتطلب التقنيات التقليدية، مثل خوارزمية REINFORCE مع قاعدة التصحيح، الحفاظ على نسخة ثابتة من السياسة لتقليل التفاوت. هذه الطريقة تواجه مشكلة رئيسية، خصوصاً عند التعامل مع حالات أكثر تعقيداً، حيث تؤدي القواعد الضعيفة إلى تقديرات متباينة قد تُعيق عملية التدريب.
تقدم دراسة جديدة خوارزمية مبتكرة تحت اسم Group Relative Policy Optimization (GRPO)، تعتمد على مبدأ تقليل العوامل السلبية من خلال تطبيع الفوائد ضمن مجموعات مسارات مختارة. من خلال مقارنة خاضعة للرقابة بين خمس خوارزميات تعلم معزز في إططار RL4CO، تم اختبار الخوارزمية الجديدة على مجموعة من مشكلات التحسين، مثل مشكلة البائع المتجول (TSP) ومشكلة سعة مركبات النقل (CVRP).
تسرد النتائج مجموعة من المزايا، منها:
1. تجنبت خوارزمية GRPO الانهيار التدريبي الذي شهده نظام REINFORCE على TSP-100، حيث تدهور الأداء فجأة بعد مرحلة التحضير.
2. عند نفس التحديثات في التقدير، كانت جودة الحلول المحققة من قبل GRPO في حدود 2% من حل خوارزمية POMO، دون الحاجة إلى أي قاعدة خارجية.
3. كذلك، تبين أن خوارزمية P3O، المعتمدة على تفضيلات ثنائية، تنافس على TSP ولكنها تُظهر تبايناً أكبر في CVRP.
تشير هذه النتائج إلى أن GRPO قد تكون البديل الواعد لطرق تحسين السياسات المعتمدة على القواعد، خصوصاً في الحالات التي يصبح فيها التدريب هشاً بسبب الاعتماد على القواعد. لذا، ما هي التحديات التي تعتقدون أنها قد تواجه هذه الخوارزمية الجديدة؟ شاركونا آراءكم في التعليقات.
إعادة تعريف تحسين السياسات في الذكاء الاصطناعي: القضاء على الاعتماد على القواعد
تقدم مجموعة بحثية جديدة طريقة مبتكرة لتحسين السياسات في مجال الأنظمة الذكية، مما يلغي الحاجة إلى القواعد التقليدية التي تؤدي إلى مشاكل في التدريب. النتائج تشير إلى آفاق واعدة لتطبيقات متعددة في مجال تحسين الحلول المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
