تمثل تقنية التعلم المعزز عبر الإنترنت (Online Reinforcement Learning) واحدة من أكثر الأساليب فعالية في تعزيز قدرات الوكلاء الرقميين، ولكنها تواجه تحديات كبيرة. من أبرز هذه التحديات ارتفاع تكاليف التفاعل مع الوكلاء بسبب البطء الكبير في المحاكيات وعدم كفاءة العينات المستخدمة في الخوارزميات الحالية.

في ورقة بحثية جديدة، تم التعرف على قيد أساسي في الطرق الحالية، وهو نموذج "حالة واحدة - حركة واحدة" (Single State Single Action) الذي يعتمد على تحديث السياسات باستخدام أزواج حالة-حركة واحد إلى واحد من خلال التقدمات الأحادية الاتجاه، دون استكشاف كل حالة محاكية مكلفة بشكل كامل.

لتجاوز هذه القيود، تم تقديم "Android Coach"، وهو إطار عمل جديد يغير نموذج التدريب إلى "حالة واحدة - حركات متعددة" (Single State Multiple Actions). يُتيح هذا الإطار للوكيل اختيار واستخدام حركات متعددة لحالة واحدة عبر الإنترنت، وذلك دون الحاجة إلى أعباء إضافية من المحاكي.

تعتمد آلية العمل الجديدة على تعلم ناقد (Critic) يقوم بتقدير قيم الحركات، مما يجعل هذا الناقد يعمل كمدرب موثوق. تم دمج نموذج مكافأة عملية مع مقدر ميزة جماعية يستند إلى متوسطات نتائج الناقد.

أظهرت التجارب الشاملة فعالية وكفاءة Android Coach، حيث حققت تحسينات تصل إلى 7.5% و8.3% في معدلات النجاح على AndroidLab وAndroidWorld مقارنة بـ UI-TARS-1.5-7B، كما حققت كفاءة تدريب أعلى بمعدل 1.4 مرة مقارنة بأساليب "حالة واحدة - حركة واحدة" التقليدية مثل PPO وGRPO، مع الحفاظ على نفس معدلات النجاح.

في ختام الحديث عن Android Coach، يمكننا أن نرى بوضوح كيف سيغير هذا الابتكار مجرى تطوير الوكلاء الرقميين. ما رأيكم في هذه التقنيات الجديدة؟ هل أنتم متحمسون للتطورات القادمة في هذا المجال؟ شاركونا في التعليقات.