في عصر يتزايد فيه الاعتماد على التكنولوجيا للانتقال، برزت وكلاء تخطيط الطرق المدعومين بنماذج لغوية كبيرة (LLMs) كمحور رئيسي لتحسين تجارب التنقل اليومي من خلال التفاعل بلغة طبيعية واتخاذ القرار المدعوم بالأدوات. ومع ذلك، فإن التنفيذ الفعلي لهذا التطور يواجه تحديات عدة، أبرزها تنوع متطلبات التخطيط، وصعوبة تكرار النتائج بسبب الخدمات غير الحتمية. لذلك، قدّمنا لكم MobilityBench، معياراً قابلاً للتطوير لتقييم وكلاء تخطيط الطرق في سيناريوهات التنقل الواقعية.
تأسس MobilityBench على مجموعة واسعة من الاستفسارات الحقيقية المجهولة التي تم جمعها من منصة Amap، مما يضمن تغطية متنوعة لمختلف نوايا تخطيط الطرق عبر عدة مدن حول العالم. ولضمان تقييم قابل للتكرار، صممنا بيئة تشغيل (sandbox) تعتمد على إعادة تشغيل واجهة برمجة التطبيقات (API) بشكل حتمي، وذلك للقضاء على التغيرات البيئية الناتجة عن الخدمات الحية.
تعتمد بروتوكولات التقييم متعددة الأبعاد التي اقترحناها على Validity of Outcomes، مدعومة بتقييمات فهم التعليمات، والتخطيط، واستخدام الأدوات، والكفاءة. عبر استخدام MobilityBench، تمكنا من تقييم عدة وكلاء لتخطيط الطرق المدعومين بنماذج لغوية كبيرة في سيناريوهات تنقل واقعية متنوعة، مما أتاح لنا تقديم تحليلات موسعة حول سلوكياتهم وأدائهم.
أظهرت نتائجنا أن النماذج الحالية تؤدي بشكل جيد في استرجاع المعلومات الأساسية ومهام تخطيط الطرق، ولكنها تواجه صعوبات كبيرة في التخطيط المتقيد بالتفضيلات، مما يؤكد الحاجة الملحة لتحسين التطبيقات الشخصية في مجال التنقل. كما قمنا بإصدار بيانات المعيار، وأدوات التقييم، والوثائق بشكل علني، والتي يمكن الوصول إليها عبر الرابط https://github.com/AMAP-ML/MobilityBench.
ما رأيكم في هذه التطورات الجديدة وكيف يمكن أن تؤثر على طرق التنقل في المستقبل؟ شاركونا في التعليقات!
مقياس MobilityBench: معيار جديد لتقييم وكلاء تخطيط الطرق في سيناريوهات التنقل الواقعية
تم إطلاق MobilityBench كمعيار مبتكر لتقييم وكلاء تخطيط الطرق المدعومين بنماذج لغوية كبيرة (LLMs) في ظروف التنقل الحقيقية. يقدم هذا المشروع تحليلاً عميقاً للأداء ويسلط الضوء على التحديات التي تواجه تطبيقات التنقل الشخصية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
