في عالم اليوم المتسارع، يعد التخطيط للسفر مهمة حيوية تتطلب دقة وذكاءً من نماذج الذكاء الاصطناعي. وقد تم تطوير مفهوم جديد يسمى 'TravelBench'، الذي يمثل معيارًا حقيقيًا لاختبار قدرات نماذج اللغات الكبيرة (LLMs) في هذا المجال.
رغم أن هناك بحوث سابقة تناولت أداء هذه النماذج في التخطيط للسفر، إلا أن الإعدادات القديمة كانت تفتقر إلى تلبية الاحتياجات الواقعية. ففي كثير من الأحيان، لم تتم مراعاة تفضيلات المستخدمين الضمنية خلال المحادثات المتعددة الجوانب، بالإضافة إلى عدم تحديد حدود قدرات الوكلاء بوضوح.
لذا، قامت المبادرة الجديدة بجمع استفسارات المستخدمين وتفضيلاتهم من سيناريوهات حقيقية، إلى جانب أدوات متعددة تم إعدادها لهذا الغرض. يتضمن 'TravelBench' ثلاث مهام فرعية رئيسية:
1. **المهمة الواحدة (*Single-Turn*)** - حيث يتم حل المشكلة بشكل مستقل.
2. **المهمة متعددة الأطراف (*Multi-Turn*)** - حيث يتم التفاعل مع المستخدم لاكتشاف تفضيلاته الضمنية.
3. **المهمة غير القابلة للحل (*Unsolvable*)** - لتحديد حدود القدرات.
لمعالجة هذه التحديات، تم إنشاء بيئة Sandbox تجمع بين عشر أدوات متعلقة بالسفر، مما يسمح لوكلاء الذكاء الاصطناعي باستخدام الأدوات لحل معظم مشكلات التخطيط للسفر العملية.
من خلال تقييم أداء نماذج اللغات الكبيرة على 'TravelBench'، اتضح أن حتى النماذج المتقدمة تظهر عدم توازن في الأداء عبر القدرات المختلفة. وإلى جانب ذلك، أثبتت عمليات التحقق النظامية الاستقرار الفعلي للمؤشر المطروح.
بهذه الطريقة، يمثل 'TravelBench' خطوة متقدمة نحو تحسين أداء الوكلاء المعتمدين على نماذج اللغات الكبيرة في مهام التخطيط للسفر الواقعية.
تقييم حقيقي لخطط السفر: كيف ترتقي نماذج الذكاء الاصطناعي لتحديات السفر الواقعية؟
تعرف على 'TravelBench'، Benchmark جديد يختبر قدرات نماذج اللغات الكبيرة (LLMs) في التخطيط للسفر بشكل واقعي. يهدف المشروع إلى تلبية احتياجات المستخدمين الحقيقية وفهم تفضيلاتهم بشكل أفضل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
