في ظل التطورات المستمرة في مجالات الذكاء الاصطناعي والتعلم الآلي، قدم الباحثون خطوة كبيرة نحو تحسين تقنيات التعلم التعزيزي (Reinforcement Learning - RL) من خلال تطوير خوارزمية جديدة تُعرف بتعلم الخيارات القابلة للتوسع (Scalable Option Learning - SOL).

تتيح هذه الخوارزمية القدرة على اتخاذ قرارات فعّالة ومدروسة على نطاقات زمنية طويلة، الأمر الذي يعد مفتاحًا لرفع كفاءة الأداء في بيئات التعلم المعقدة. على الرغم من الوعد الكبير الذي تحمله طرق التعلم التعزيزي الحالية، إلا أن العديد منها لم تتمكن من الاستفادة الكاملة من التدريب على نطاق واسع.

تناولت الدراسة الحديثة تحديات رئيسية في توسيع نطاق التعلم التعزيزي الهرمي عبر الإنترنت، حيث أظهرت أن SOL يمكنه تحقيق مستويات إنتاجية أعلى بنحو 35 ضعف مقارنة بالطرق الهرمية السابقة.

للإثبات على فعالية خوارزمية SOL، تم تدريب عملاء هرمين باستخدام 30 مليار إطار من الخبرة على لعبة NetHack المعقدة. النتائج كانت مثيرة، حيث تجاوز أداء العملاء الهرميين أداء العملاء العاديين وأظهرت اتجاهات إيجابية في التوسع.

لم يقتصر النجاح على NetHack فقط، بل تم اختبار SOL أيضًا في بيئات MiniHack وMujoco، مما أبرز تطبيقاتها العامة في مجالات متعددة.

إذا كنتم مهتمين بالتكنولوجيا، يمكنكم الاطلاع على الشيفرة المصدرية لخوارزمية SOL من خلال الرابط [github.com/facebookresearch/sol].