في عالم الإنترنت، يتطلب تحقيق التعليمات الخاصة بالمستخدمين من الوكلاء المستقلين الاعتماد على تقنيات متطورة للتعامل مع الطبيعة المُعقدة والمتغيرة للمواقع. حيث تعتمد الطرق التقليدية عادةً على التحسين الخاضع للإشراف (Supervised Fine-Tuning) أو التعلم المعزز غير المتصل (Offline Reinforcement Learning)، مما يؤدي إلى مشاكل كبيرة تتعلق بتغير توزيعات البيانات حيث لا تتمكن المسارات غير المتصلة من التقاط التحولات العشوائية في الحالات والتعليقات الفورية من بيئات الويب العريضة.
في هذا السياق، نقدم OpAgent، وهو وكيل متطور يستخدم التعلم المعزز عبر الإنترنت (Online Reinforcement Learning) والذي تم تصميمه لتحسين سياساته من خلال تفاعلات مباشرة ومتكررة مع المواقع دون قيود. نستعرض في هذا البحث ثلاث ابتكارات رئيسية:
1) **التدريب متعدد المهام الهرمي**: حيث نقوم بتنظيم مجموعة شاملة من مجموعات البيانات ضمن تصنيفات وظيفية أساسية - التخطيط، التنفيذ، والأساس - مما يساهم في بناء نموذج رؤية-لغة (Vision-Language Model) قادر على اتباع التعليمات بفعالية عالية.
2) **التعلم المعزز الوكلي في البيئات الحية**: قمنا بتطوير بيئة تفاعلية عبر الإنترنت وضبطنا نموذج رؤية اللغة باستخدام نظام تعليمي معزز مخصص. قدمنا آلية مكافأة هجينة تجمع بين تقييم النتائج الشامل من خلال قاعدة بيانات مستقلة تدعى WebJudge، وشجرة قرار قائمة على القواعد تمنح مكافآت للتقدم، مما يعالج مشكلة توزيع الائتمان في عمليات التنقل الطويلة. حقق نموذجنا المعزز معدلاً للنجاح بنسبة 38.1% (pass@5) على منصة WebArena، متفوقًا على جميع النماذج الحالية.
3) **وكيل المشغل**: نقدم إطارًا وكيلًا ومرنًا يُدعى OpAgent الذي يجمع بين التخطيط، والتأسيس، والتفكير، والتلخيص. تتيح هذه المنظومة التعزيز الفعال للمتانة واستعادة الأخطاء، مما يرفع من أداء الوكيل إلى معدل نجاح جديد بلغ 71.6%، مما يجعلها من الرواد في هذا المجال.
إن OpAgent تمثل خطوة كبيرة نحو المستقبل في استخدامات الذكاء الاصطناعي، وهو ما يفتح آفاقًا جديدة لم تكن ممكنة من قبل. فما رأيكم في هذه التقنية الجديدة؟ هل تعتقدون أنها ستحدث ثورة في تجربة تصفح الإنترنت؟ شاركونا آرائكم في التعليقات!
اكتشف OpAgent: ثورة جديدة في التنقل على شبكة الإنترنت بذكاء اصطناعي متقدم!
يقدم OpAgent، الوكيل الذكي للتنقل على الويب، نهجًا مبتكرًا للتفاعل مع المواقع الويب بطريقة ديناميكية. تتميز هذه التقنية الجديدة بزيادة ملحوظة في معدل النجاح بنسبة 71.6%، مما يجعلها رائدة في مجالها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
