في السنوات الأخيرة، أصبح الذكاء الاصطناعي (AI) مجالاً مهماً للبحث والتطوير، حيث تتجلى其中 تكنولوجيا التعلم المدعوم (Reinforcement Learning) كأداة قادرة على إنجاز مهام معقدة من خلال تفاعلات متعددة مع البيئة. ومع ذلك، في سياقات الخطوات المتعددة، يظهر أن خوارزميات تحسين السياسات التقليدية على مستوى المجموعة تصبح دون المستوى نظراً لأنها تفترض أن كل خطوة تحمل نفس الوزن، مما يتعارض مع ما هو واقع.
تحليل جديد يكشف أن الاختيارات المتعلقة بالإجراءات في نسبة صغيرة فقط من الحالات هي التي تحدد بشكل حاسم النتائج النهائية. استناداً إلى هذه الرؤية، المقترحة هنا هي CARL، وهي خوارزمية تعلم مدعوم تدرك أهمية الحركات، وتم تصميمها خصيصاً لتفكير الوكلاء على المدى الطويل.
تستخدم CARL مفهوم المعلوماتEntropy كوسيلة لتحديد أهمية الحالات، مما يساهم في تحقيق تدريب مركز عبر تخصيص المكافآت فقط للإجراءات المتخذة من حالات ذات أهمية عالية، واستبعاد تلك التي تم أخذها من حالات ذات أهمية منخفضة من تحديثات النموذج. إذ أن هذه الاستراتيجية تمنع تخصيص الاعتمادات الضوضائية وتجنب الحسابات الزائدة.
تجارب مكثفة أظهرت أن CARL تحقق أداءً أقوى وكفاءة أعلى عبر مجموعة متنوعة من إعدادات التقييم. كما أنه سيتم إتاحة الكود المصدر للجمهور، مما قد يسهل على الباحثين والمطورين الانغماس في هذه الخوارزمية المتقدمة.
CARL: استراتيجيات جديدة للتعلم المدعوم تعتمد على أهمية الحركات
تقدم الدراسة رؤية جديدة للتعلم المدعوم من خلال تقديم الخوارزمية CARL التي تميز بين الحركات الحرجة وغير الحرجة، مما يؤدي إلى تحسين الأداء والكفاءة. هذه الخوارزمية تعد خطوة جديدة في تطور الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
