تعتبر نماذج العالم (World models) أحد الأسس الأساسية لبناء وكلاء الذكاء الاصطناعي الذين يتمتعون بقدرة مرنة على التفكير والتخطيط. ورغم ذلك، تقتصر التقييمات الحالية على اختبارات تتعلق فقط بالخصائص القابلة للقياس من خلال التفاعلات الملاحظة، مثل توقع الإطار التالي أو عائد المهمة، دون أن تتناول ما إذا كانت النماذج المتعلمة تدعم استفسارات متنوعة حول البيئة.
في المقابل، يبني البشر نماذج متعددة الأغراض يمكنها الإجابة على العديد من الأسئلة المتنوعة حول البيئة، بما في ذلك الأسئلة التي تتطلب فهم الهيكل العام والنتائج المضادة للوقائع. ولحل هذه الفجوة، تم اقتراح بروتوكول جديد باسم WorldTest، والذي يهدف إلى تقييم ما إذا كانت الوكلاء تتعلم نماذج تدعم استفسارات متعددة حول البيئة، وهي استفسارات تعتمد على خصائص البيئة الكاملة، وليس فقط على المسارات الملاحظة.
تستهدف هذه الاستفسارات بشكل فردي خصائص مثل إمكانية الوصول أو آثار التدخلات، التي لا يمكن لنموذج يسير بمسار واحد أن يحددها بمفرده. ومن خلال تقييم النموذج عبر أنواع مختلفة من الاستفسارات، يمكن قياس القدرة العامة للنموذج.
تم إنشاء WorldTest في إطار مشروع يُعرف باسم AutumnBench، وهو معيار يتضمن 43 بيئة تفاعلية من نوع الشبكة و129 مهمة عبر ثلاث عائلات استفسارية للإنسان وللوكلاء المتعلمين. أظهرت التجارب التي أجريت بمشاركة 517 إنسانًا وخمسة نماذج متقدمة أن البشر يتفوقون بشكل ملحوظ على هذه النماذج، وهو الفجوة التي تُعزى إلى الاختلافات في الاستكشاف وتحديث الاعتقاد.
توفر AutumnBench إطارًا لتقييم تعلم نماذج العالم في بيئات الشبكة مع استفسارات على مستوى البيئة، بينما يوفر WorldTest نموذجًا لتوسيع مثل هذه التقييمات لتشمل مجالات أغنى. تُعتبر هذه الخطوة خطوة ثورية في عالم الذكاء الاصطناعي، حيث تفتح آفاقًا جديدة لفهم القدرات الحقيقية لوكلاء الذكاء الاصطناعي.
اختبار نماذج العالم: ثورة في تقييم الذكاء الاصطناعي بطرق جديدة!
تمثل نماذج العالم حجر الزاوية في تطوير وكلاء الذكاء الاصطناعي. اكتشف كيف يمكن لتقييمات جديدة مثل WorldTest تغيير طريقة فهمنا لوكيل الذكاء الاصطناعي واستكشافه للبيئات المحيطة به.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
