في عالم الذكاء الاصطناعي، تحتل نماذج اللغة الضخمة (Large Language Models) مكانة محورية في تطوير روبوتات قادرة على أداء مهام متنوعة. ولكن، ماذا يحدث عندما تتطلب تلك المهام فهمًا عميقًا للبيئة المحيطة؟ هذا هو ما يطرحه معيار GroundAct الجديد.
في دراسة مثيرة، وجد الباحثون أن الوكلاء المعتمدين على نماذج اللغة الضخمة يحققون نجاحًا يتراوح بين 85-96% عندما تحتوي التعليمات على تفاصيل محددة بشأن الأفعال. ومع ذلك، ينخفض هذا النجاح إلى 29-53% عندما يعتمد تنفيذ الأفعال على السياق البيئي الذي لا يتم ذكره في التعليمات.
تقدم GroundAct بحل مبتكر يتمثل في معيار يحتوي على 1500 سيناريو و16,592 حالة مهمة في بيئات تفاعلية نصية، موزعة عبر 11 مجالاً، حيث تم تنظيم المهام ضمن سبع فئات تعتمد على تعقيد إدراكي متدرج.
أظهرت التقييمات التي أجريت على 15 نموذجًا مختلفًا (تتراوح أحجامها من 3 مليار إلى 671 مليار معلمة) ثلاث أنماط تشخيصية رئيسية:
1. يرتبط التفكير في الخصائص ارتباطًا ضعيفًا بالتفكير في الأدوات والتنسيق، مما ينتج ملفات تعريف نموذجية مميزة.
2. تمنح الرسوم البيانية الكاملة للبيئة تحسنًا يصل إلى 27.6% في استخدام الأدوات مقارنةً بالتعاون الضمني، مما يوضح الفروقات بين القيود المفروضة على البحث وتلك المرتبطة بالتصفية.
3. يؤدي التعديل الدقيق المراقب إلى رفع أداء نموذج Qwen2.5-3B من 0.6% إلى 76.3% في الأوامر المباشرة، لكنه يبقى عند 1.5% إلى 5.5% في الحالات التي تتطلب تعاونًا ضمنيًا.
تؤكد هذه النتائج على أن تأصيل الأفعال يمثل تحديًا متعدد الأبعاد لا يمكن تحقيقه لمجرد زيادة الحجم أو النطاق.
فهل يمكن لنماذج اللغة الضخمة أن تتجاوز هذه العقبات وتحقق مستوى جديدًا من الفهم الكافي للبيئة؟ شاركونا آرائكم في التعليقات!
نحو فهم أعمق: GroundAct وتحديات تأصيل الأفعال في البيئات المتغيرة
تقدم GroundAct معياراً جديداً لتقييم قدرة الوكلاء المعتمدين على نماذج اللغة الضخمة على تأصيل الأفعال استناداً إلى الظروف البيئية. تكشف النتائج عن فجوات ملحوظة في الأداء، مما يستدعي تطوير أساليب جديدة لتحسين الفهم البيئي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
