في إطار التطورات السريعة في مجال الذكاء الاصطناعي، يبرز أسلوب OpenWebRL كنموذج ثوري لتدريب الوكلاء البصريين على الويب باستخدام التعلم المعزز المتعدد الأدوار (Multi-turn Reinforcement Learning). يتطلب بناء وكلاء بصريين قادرين القدرة على التفكير طويل الأمد، وضبط دقيق للمعلومات، وتفاعل قوي مع مواقع الويب الديناميكية. وبالرغم من وجود تقدم ملحوظ، إلا أن الأنظمة الأكثر قوة تظل غالبًا ملكية، بينما تعتمد الوكلاء المفتوحون بشكل كبير على التدريب الخاضع للإشراف لأعداد كبيرة من المسارات المحددة مسبقًا.
تتمثل المشكلة الرئيسية في عدم قابلية التوسع، حيث تعتبر العروض عالية الجودة مكلفة في جمعها، وتقدم المجموعات الثابتة تغطية محدودة لعالم الويب المتنوع والمتغير باستمرار. ورغم أن التعلم المعزز قد أظهر وعودًا رائعة بالنسبة للوكلاء المعتمدين على النصوص، إلا أن إمكانياته في تدريب الوكلاء البصريين مباشرةً على المواقع الحية تبقى غير مستكشفة بشكل كبير.
نقدم اليوم OpenWebRL، وهو إطار مفتوح يتيح تدريب الوكلاء البصريين عبر التعلم المعزز المتعدد الأدوار على مواقع الويب الحية. يغطي OpenWebRL كامل عملية التدريب، بما يشمل بنية تحتية قابلة للتوسع للمتصفح الحي، وت初始化 مُشرفته، وإدارة السياق متعدد الوسائط، والحكم على نجاح المسار على مستوى المسار، وتحسين السياسة المتعددة الأدوار بشكل فعال.
من خلال هذا الإطار، تم تدريب نموذج OpenWebRL-4B الذي حقق أداءً جديدًا كحالة فنية مفتوحة في اختبارات الويب الحية التحدي. باستخدام 0.4 ألف مسار تمهيدي و2.2 ألف مهمة تدريب مفتوحة، حقق OpenWebRL-4B نسبة نجاح 67.0% على Online-Mind2Web و64.0% على DeepShop، متفوقًا على الوكلاء المفتوحين السابقين بنفس السعة أو الأكبر، وما زال تنافسيًا مع الأنظمة الملكية مثل OpenAI CUA وGemini CUA.
بجانب الأداء القوي، ندرس بشكل منهجي الخيارات التصميمية الرئيسية التي تجعل التعلم المعزز فعالًا بالنسبة للوكلاء البصريين، ونعرض كيف يعزز التعلم المعزز التفكير الوكالي. تتيح أبحاثنا مسارًا عمليًا لبناء وكلاء ويب أكثر قدرة، وقابلة للتكرار، وفعّالة من حيث التكلفة. نتطلع لتقديم بيانات التدريب، والنماذج، والشيفرات لدعم الأبحاث المستقبلية.
OpenWebRL: ثورة جديدة في التعلم المعزز للوكيلين البصريين على الويب!
تقدم OpenWebRL إطاراً مفتوحاً لتدريب الوكلاء البصريين باستخدام التعلم المعزز المتعدد الأدوار على مواقع الويب الحية. هذا الابتكار يعد خطوةً جوهرية نحو بناء وكلاء ويب أكثر قدرة وكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
