تشهد تطبيقات التخطيط للسفر ثورة حقيقية بفضل التطورات التي نشهدها في نماذج اللغات الضخمة (Large Language Models - LLMs). ومع ذلك، يعاني تقييم هذه النماذج من العديد من القيود التي تحد من قدرتها على تقديم خدمة فعالة ودقيقة. من هنا، يظهر دور إطار تقييم TravelEval كحل مبتكر يُسهم في معالجة هذه الثغرات.

تتمثل أبرز قيود إطار التقييم الحالي في:
1) التركيز الزائد على الالتزام بالقيود، مما يتجاهل مجموعة من الصفات متعددة الأبعاد مثل التكاليف الزمانية والمكانية.
2) نقص البيانات الواقعية والشمولية في مجالات أساسية مثل الإقامة ووسائل النقل.
3) تقويم خطط اليوم الواحد بشكل معزول، مما يفوت العديد من التفاصيل الحيوية التي تعتبر ضرورية لتقييم الخطط الكاملة.

لذلك، يقدم TravelEval منهجًا شاملًا ومبتكرًا يتضمن:
1) إطار تقييم متعدد الأبعاد يتكون من ستة أبعاد، يساعد في تقييم الخطط من جوانب دقة التنفيذ، الالتزام بالمعايير، البعد الزمني، المجال المكاني، الكفاءة الاقتصادية، والفائدة.
2) صندوق بيانات واقعي للغاية يحتوي على أسعار دقيقة للإقامة وبيانات نقل بين المدن.
3) طريقة تقييم عالمية قائمة على المحاكاة تمزج بين المعلومات الجغرافية الدقيقة وأوقات الانتظار المفصلة.

عند تقييم 12 مقاربة شائعة باستخدام TravelEval، تم الكشف عن العديد من الرؤى القيمة، حيث تبين أن نماذج LLMs تواجه صعوبات في التخطيط متعدد الأبعاد الأمثل عالميًا، وخاصة في التفكير الزماني والمكاني والامتثال للميزانية. كما أن استراتيجيات التفكير الوكالية لم تقدم تحسينات ثابتة.

باختصار، يوفر TravelEval أساليب تقييم راسخة ومتعمقة للدراسات والأبحاث في مجال التخطيط للسفر المدعوم بالذكاء الاصطناعي، مما يمثل خطوة كبيرة للأمام في تحسين هذه التطبيقات المتطورة.