يُعتبر تخطيط السفر مهمة حيوية تتطلب تفكيراً عميقاً يمتد لمدى زمني طويل، ولكنها تكشف عن عيوب كبيرة في نماذج اللغات الضخمة (LLMs). في إطار تقييم أداء هذه النماذج، يُركز الباحثون عادةً على النتائج النهائية، مما يؤدي إلى عدم وضوح في تحليل الأسباب الجذرية للفشل.

لذا، قام الباحثون بتقسيم عملية تخطيط السفر إلى خمس قدرات فرعية أساسية هي: استخراج القيود (Constraint Extraction)، استخدام الأدوات (Tool Use)، توليد الخطط (Plan Generation)، تحديد الأخطاء (Error Identification)، وتصحيح الأخطاء (Error Correction). يتم تنفيذ بروتوكولات تقييم مفصولة تعتمد على سياقات وسائط متوسطة، مما يسمح بقياس مدى فعالية كل قدرة بشكل منفصل دون تأثير الأخطاء المتراكمة.

تكشف النتائج عن تباين واضح في الأداء: حيث أن نماذج اللغات الضخمة قادرة على استخراج القيود الصريحة بدقة، لكن تواجه صعوبة في استنتاج المتطلبات الضمنية التي تتطلب التفكير في سياقات مفتوحة. فضلاً عن ذلك، تُظهر هذه النماذج تحيزات هيكلية أثناء توليد الخطط وتعاني من ضعف في تصحيح الأخطاء، مميزة بحساسيتها الزائدة وثباتها على الأخطاء.

تقدم هذه النتائج توجيهات دقيقة لتحسين قدرات التفكير والتخطيط في نماذج اللغات الضخمة، مما قد يدفع حدود الذكاء الاصطناعي نحو آفاق جديدة. ما رأيكم في هذه التحديات والفرص؟ شاركونا آراءكم في التعليقات.