في عالم الذكاء الاصطناعي، يعد التخطيط الفعال أمرًا حاسمًا لنجاح وكلاء الويب الذين يعتمدون على نماذج اللغات الضخمة (LLMs). رغم التقدم الكبير في هذا المجال، إلا أن الكثير من هؤلاء الوكلاء يواجهون صعوبات في استكشاف المهام بالكامل، كما يعانون من فقدان الخطوات الأساسية وحساسيتهم تجاه قيود المهام.

كشفت الأبحاث السابقة أن العديد من هذه التحديات تعود إلى ضعف استراتيجيات التخطيط المستخدمة. وللمساعدة في حل هذه المشكلة، تم تقديم أداة جديدة تُسمى PlanAhead، وهي إطار عمل static planner-executor يهدف إلى تقييم تأثير تمثيلات الخطط المختلفة على أداء الوكلاء.

تبدأ الدراسة بتصنيف مهام WebArena إلى ثلاثة مستويات من الصعوبة، مما يسهل عملية تقييم الصعوبة على نحو متسق دون الحاجة إلى تعليقات من البشر. بعد ذلك، تم اختبار أربع تمثيلات مختلفة للخطط على المهام المصنفة على أنها صعبة، وهي: الأهداف الفرعية المتتابعة، السرد، الكود الوهمي، وقوائم المراجعة؛ وذلك عبر عائلات مختلفة من وكلاء LLM المدعومين (OpenAI، Alibaba، وGoogle).

ولضمان مراعاة التغيرات العشوائية في النتائج، قدم الباحثون مقياسين تقييميين جديدين: معدل الإنجاز (Achievement Rate - AR) وتناسق المهمة المحلولة (Solved-Task Consistency - STC). أظهرت النتائج أن كل من صياغة الخطة والنموذج اللغوي المستخدم في تكوين الخطة يؤثران بشكل كبير على القوة والمتانة والأداء العام للوكلاء في تنفيذ المهام.

هذا التطور يدعونا للتفكير في كيفية تحسين تقنيات التخطيط لتحقيق نتائج أفضل في تطبيقات الذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.