في عالم الذكاء الاصطناعي، تمثل خوارزمية Evolving-RL نقطة تحول جديدة في كيفية تطور الأنظمة المدعومة بالذكاء الاصطناعي. تهدف هذه الخوارزمية إلى التغلب على الطبيعة الثابتة للنماذج اللغوية الكبيرة (Large Language Models) من خلال استنباط تجارب قابلة لإعادة الاستخدام من التفاعلات الماضية. ولكن، كيف يمكن لهذه التقنية أن تحدث فرقًا جوهريًا؟

تكمن الفكرة وراء Evolving-RL في تحسين قدرتها على التكيف مع المهام الجديدة أثناء وقت التشغيل. يتطلب هذا الأمر مهارات متطورة في التجريد والتعميم والتعلم في السياق. ومع ذلك، يركز كثير من الأبحاث السابقة على خيارات تصميم النظام بدلاً من التفكير في القدرات الأساسية للنموذج. بينما بدأت بعض الأعمال الأخيرة في تحسين مرحلة استخدام التجارب عبر التعلم المعزز، إلا أنها لم تعالج التطور الذاتي كعملية موحدة يمكن تحسينها بشكل مشترك.

تقدم Evolving-RL إطارًا خوارزميًا فعالًا يعزز من قدرة استخلاص التجارب واستخدامها المطلوبة لتحقيق التطور الذاتي. وتتمثل القوة الفائقة لهذه الخوارزمية في تركيز عملية التعلم على استخراج وتقييم التجارب، حيث يتم استخدام إشارات الإشراف المشتقة من التقييم لتحسين كل من المستخرج والمحلل بصورة منفصلة، ومن ثم تمكين تطورهم المتناغم.

أثبتت التجارب العملية على ALFWorld وMind2Web أن Evolving-RL تعزز فعالية النماذج اللغوية الكبيرة في استخراج وإعادة استخدام التجارب، مما يؤدي إلى تحسينات قوية في الأداء في المهام الجديدة. حيث سجلت تحسينات تصل إلى 98.7% مقارنة بالأساسيات السابقة على مجموعة مهام غير مرئية في ALFWorld و35.8% على Mind2Web. وتظهر النتائج أنه لا يمكن إطلاق هذه المكاسب إلا من خلال التنسيق بين استخراج التجربة واستخدامها.

وبالإضافة إلى ذلك، فإن Evolving-RL تعمل كخوارزمية معززة للتعلم المعزز (Reinforcement Learning) الغنية بالتجارب. من خلال تضمين نماذج التجارب القابلة لإعادة الاستخدام مباشرة في معلمات النموذج، يتم تحقيق مكاسب أداء ملحوظة على الأساسيات القياسية في المهام المرئية وغير المرئية على حد سواء، حتى في غياب تراكم التجربة أثناء الاختبار.

هل أنتم مستعدون للغوص في عالم Evolving-RL وإمكانياتها الرائعة؟ شاركونا آرائكم وتجاربكم في التعليقات!