في عالم الذكاء الاصطناعي، يتعرض العديد من وكلاء الويب (Web Agents) للفشل رغم إدعائهم تحقيق النتائج النهائية بشكل صحيح. البحث الجديد الذي طورته مجموعة Parallel WebBench يتعامل مع هذه المسألة المعقدة، حيث يعرض 1679 سجلًا موثقًا للكشف عن الفجوات في أداء هؤلاء الوكلاء.

تتضمن الدراسة 350 مهمة موازية تم تنسيقها يدويًا، بالإضافة إلى 1329 سجلًا مُعاد بناؤه مع مسارات تحقق قائمة على URL. ومع تدريب عملاء بنمط WebExplorer باستخدام تقنيات GRPO (Generalized Reinforcement Policy Optimization)، أظهرت النتائج تحسنًا كبيرًا، حيث ارتفعت نسبة الإنجاز من 50.7% إلى 96.0% مقارنة بالتقنيات السابقة.

ورغم هذه التحسينات، لا يزال هناك فجوة ملحوظة في الدقة الكاملة، وتظهر التحليلات تكرار ثلاثة أنماط فشل رئيسية: حلقات البحث المقيدة بالسياق، إنهاء مبكر للإجابات الجزئية، والانهيار في عملية التركيب بعد استرجاع الأدلة ذات الصلة. توضح النتائج أن استخدام البيانات التركيبية (Synthetic Data) في نماذج GRPO يقلل من الانسحاب ويعزز الصحة الجزئية، لكن لا تزال هناك حاجة إلى غطاء قائم على الأدلة وتحليلات التركيب لتحسين الدقة الكاملة.

تسلط هذه الدراسة الضوءَ على أهمية تطوير نماذج ذكية قادرة على تجاوز الفجوات التي تظهر خلال استكشاف الويب، مما يتيح تجارب بحث أكثر فعالية وأفضل استقرارًا على المدى الطويل. كيف ترى مستقبل وكلاء الويب في ظل هذه التحديات؟ شاركونا آرائكم في التعليقات.