في عالم الذكاء الاصطناعي، تبرز الحاجة لتطوير استراتيجيات فعّالة وموثوقة لوكلاء الويب (Web Agents). يعتبر نموذج ReAct الحالي هو المعمارية الافتراضية لوكلاء النماذج اللغوية الضخمة (Large Language Models)، ولكنه قد يشكل تحديًا لأمن وكفاءة العمليات. بدلاً من ذلك، يقترح خبراء المجال أن يتم الاعتماد على نموذج 'التخطيط ثم التنفيذ' (Plan-Then-Execute).

لكن لماذا هذا التحول ضروري؟

تتداخل محتويات الإنترنت بشكل كبير، حيث تضم صفحات المنتجات في التجارة الإلكترونية قوائم من البائعين، ومراجعات من العملاء، وإعلانات مدفوعة. تحت نموذج ReAct، تتدفق جميع هذه المعلومات إلى النموذج عند اتخاذ القرار بشأن الخطوة التالية، مما يوفر مسارًا مباشرًا لإدخال الطلبات بطريقة قد تُفسد سير السيطرة على الوكيل.

عند تطبيق نموذج 'التخطيط ثم التنفيذ'، يتم الالتزام ببرنامج مخصص قبل مشاهدة المحتوى الحي على الويب، مما يساعد على تقليل تأثير البيانات غير الموثوقة. بينما يمكن أن تؤثر البيانات غير الموثوقة على القيم أو الفروع داخل الرسم التنفيذي المحدد مسبقًا، إلا أنها لا يمكن أن تعيد تعريف المهمة المعطاة للمستخدم أو تتسبب في إنشاء إجراءات جديدة أثناء التنفيذ.

عند تحليل WebArena، وهو معيار شهير لوكلاء الويب، وجد الخبراء أن جميع المهام متوافقة مع نموذج 'التخطيط ثم التنفيذ'، وأن 80% من المهام يمكن إكمالها باستخدام خطة برمجية خالصة دون الحاجة إلى أي إجراءات فرعية في الوقت الحقيقي.

لكن ما هي العقبة الرئيسية لاعتماد هذه الاستراتيجية على الويب؟

لضمان نجاح نموذج 'التخطيط ثم التنفيذ'، يجب أن تتوافق الأدوات بشكل دقيق مع الإجراءات الدلالية (Semantic Actions)، مع معرفة التأثيرات قبل التنفيذ، مما يمنح الوكلاء معلومات كافية للتخطيط بشكل فعال. إلا أن الويب لا يقدم هذه الواجهة بشكل طبيعي، حيث تعتمد أدوات المتصفح مثل النقر (Click)، والطباعة (Type)، والتمرير (Scroll) على معاني تعتمد على الصفحة.

بالتالي، يتطلب تخطيط هذه العمليات تغييرات على مستوى البنية التحتية، وليس فقط تحسين النماذج. المهام على الويب لا تحتاج إلى رد فعل افتراضي؛ بل تحتاج إلى واجهات برمجية كاملة وقابلة للتدقيق.