في عالم يتسارع فيه التطور التكنولوجي، تبرز أهمية الموديلات المدعومة بنماذج اللغة الكبيرة (LLMs) في تمكين الوكالات الذكية من استخدام الأدوات الخارجية لحل المهام المعقدة. ومع ذلك، كانت التقييمات السابقة غالباً ما تتجاهل بُعد الزمن في استخدام هذه الأدوات، خصوصاً تأثير تأخر ردودها.
ما يقدمه البحث الجديد من أداة AsyncTool هو تقييم شامل لقدرة الوظائف غير المتزامنة على استخدام الأدوات ضمن بيئات متعددة المهام. يعتمد الأداء في التطبيقات الحقيقية على قدرة الوكالات على استغلال الوقت الميت أثناء انتظار ردود الأدوات.
تقوم AsyncTool بعرض مهام متنوعة ومتعددة في نفس الوقت، مما يساعد في محاكاة تأخر ردود الأدوات بشكل واقعي خلال التنفيذ. من خلال استراتيجية متطورة لتوليد البيانات، تم بناء مجموعة بيانات متعددة المهام تغطي مجموعة واسعة من السيناريوهات وأنماط استخدام الأدوات.
تتضمن التقييمات مستويات متعددة تشمل الخطوة، والمهمة الفرعية، والمهمة الكاملة، مما يساعد في تقديم مقاييس جديدة تركز على كفاءة التنسيق وإتمام المهام. تظهر التجارب المكثفة أن تأخر ردود الأدوات يُشكل تحديات كبيرة للوكالات الذكية الحالية، مما يؤدي إلى تدهور الأداء.
تساعد نماذج أكثر انسجامًا في التنسيق بين تبديل المهام وتتبع الاعتماد وصيانة الحالة على تحقيق أداء أقوى في اختبار AsyncTool.
تقدم تحليلات هذه الأداة رؤى عملية لكي نتمكن من تصميم أنظمة مستقبلية ذات قدرات تفكير زمني أفضل وتنسيق أعلى. في ختام هذا البحث، يتضح أن الانتظار لم يعد يمثل عقبة، بل يمكن أن يكون فرصة لتحسين الكفاءة والفعالية في استخدام الأدوات.
اكتشاف قوة الانتظار: أداة AsyncTool تقيم استجابة وظائف الذكاء الاصطناعي في سيناريوهات متعددة المهام!
تمثل أداة AsyncTool مرجعاً جديداً لتقييم قدرات الوكالات المعتمدة على نماذج اللغة الكبيرة (LLMs) في استخدام الأدوات في بيئات متعددة المهام. تكشف النتائج عن التحديات التي تواجهها هذه الأنظمة بسبب تأخر ردود الأدوات، مما يؤثر على كفاءتها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
