في عالم يتطور فيه الذكاء الاصطناعي بسرعة، يبرز مشروع DRIVE كأحد أبرز الابتكارات التي تهدف لتعزيز قدرة الوكلاء على الإنترنت. يعتمد الوكلاء على مستويين من المهارات للقيام بمهام متعددة: المهارات الاستدلالية (Reasoning Skills) التي تمكنهم من تحليل المعلومات واتخاذ قرارات مستنيرة، والمهارات التفاعلية (Interaction Skills) التي تتطلب التفاعل المباشر مع عناصر الصفحة.

مع التباين الكبير بين هذين النوعين من المعرفة، تبرز تحديات كبيرة. فمن جهة، المعرفة الاستدلالية تعتبر عامة وقابلة للتحويل عبر مواقع الويب، مثل أهمية البحث عن الرحلات الجوية قبل حجزها. ومن جهة أخرى، تتعلق المعرفة التفاعلية بتفاصيل دقيقة مثل كيفية الضغط على زر البحث في موقع معين.

الرؤى الحالية غالبًا ما تخزن الخبرات بشكل موحد، مما يؤدي إلى صعوبات في نقل المهارات بين المواقع. فإما أن تفقد التمثيلات المجردة قابليتها للتنفيذ على الصفحات الواضحة أو تفشل التمثيلات المحددة في التعميم عبر مجالات مختلفة. وهنا يأتي دور DRIVE، الذي يقترح إطار عمل حديث لفصل المهارات التاريخية إلى مهارات تفكير طبيعية وأخرى تفاعلية برمجية، بحيث ينطلق من أسس تجريبية للمهام.

يستفيد DRIVE من آلية تنسيق مدركة للسياق، بحيث يتم استرجاع المهارات المتوقعة واستخدامها بشكل ديناميكي بناءً على المتطلبات الخاصة بكل مهمة. بالإضافة إلى ذلك، يتم استخدام التأمل على مستوى المهارة لتحديد أنماط الفشل الخاصة بالهرميات، مما يعزز من عملية توسيع المكتبة وتنقيحها.

أظهرت التجارب عبر خمسة مجالات في WebArena أن DRIVE حقق متوسط معدل نجاح للمهام بلغ 52.8%، متجاوزاً الأساس الخالي من المهارات بمعدل 7.3 نقطة مئوية. وتظهر النتائج الإضافية أن المهارات الاستدلالية والتفاعلية توفر مزايا منفصلة ومتكاملة، مما يعزز الفصل بين منطق المهام القابل للتنفيذ وعمليات الصفحة المحددة.

في النهاية، تُعتبر DRIVE خطوة رائدة نحو تحسين أداء الوكلاء على الإنترنت، مما يمهد الطريق أمام مستقبل أكثر كفاءة وابتكاراً في تفاعل الأنظمة الذكية.