تاريخيًا، كانت تقييمات السفر تعتمد بشكل كبير على الآراء الإنسانية، ولكن مع توفُّر نماذج اللغات الضخمة (LLMs) وظهور الحاجة لطرق تقييم أكثر دقة، يبدأ التحدي في إنشاء توصيات سفر تتسم بالتنوع والمصداقية. في دراسة حديثة، تم استخدام (LLMs) كقضاة لتقييم قوائم رحلات المدن المستدامة عبر أربعة أبعاد رئيسية: الملاءمة، التنوع، الاستدامة، وتوازن الشعبية.

هذا المنهج الجديد يعتمد على إطار عمل ثلاثي المراحل:
1. **التحكيم الأساسي**: باستخدام عدة نماذج لغوية لتقييم قوائم الرحلات.
2. **تقييم الخبراء**: للكشف عن أي انحرافات منهجية في التقييم.
3. **معايرة البعد المحدد**: من خلال وضع قواعد وأمثلة قليلة-shot لتسليط الضوء على تفسيرات الاستدامة.

تظهر النتائج وجود انحيازات خاصة بالنموذج وتباين كبير على مستوى الأبعاد، حتى عندما تتفق النماذج على التقييم العام. كما يعكس هذا العمل أهمية الفهم الواضح للمعايير المختلفة التي تنظم تقييم الاستدامة، مما يستدعي الحاجة إلى تطوير نماذج تقييم أكثر شفافية ووعيًا بالتحيز.

للمهتمين بإعادة إنتاج هذه الدراسة، تم تزويد العموم بالطلبات والرموز المصدرية عبر [الرابط المقدم](https://github.com/ashmibanerjee/trs-llm-calibration).

ما رأيكم في دمج الذكاء الاصطناعي في مجالات السياحة؟ شاركونا بآرائكم في التعليقات.