في تطور مثير، يستعرض أحد الأبحاث الحديثة كيفية تقييم نماذج الذكاء الاصطناعي (AI) للألعاب، مبرزاً أهمية التفكير في كيفية اختيار المشكلات التي يجب حلها. لفترة طويلة، كان التركيز في تقييم أنظمة الذكاء الاصطناعي على القدرة على حل المشكلات، وذلك عبر دراسة كيفية لعب النماذج لألعاب شهيرة مثل الشطرنج وGo.

يقدم الباحثون في هذا العمل نموذجاً جديداً لتقييم هذه التقييمات، مستخدمين مجموعة بيانات واسعة تضم أكثر من 100 لعبة طاولة جديدة و450 حكما بشرياً للمقارنة بين تقييمات نموذجية ونماذج التفكير. يتناول البحث نوعين من الاستفسارات التقييمية: الأولى تتعلق بالعائد (أو العدالة) والثانية بالمتعة التي توفرها الألعاب.

تسلط النتائج الضوء على أن نماذج التفكير تتوافق بشكل أفضل مع تقييمات البشر مقارنةً بالنماذج غير القائمة على التفكير. ومع ذلك، يظهر ارتباط غير خطي؛ كلما اقتربت النماذج من الكفاءة المثلى في نظرية الألعاب، تضعف علاقتها بالبيانات البشرية. كما لوحظت زيادة في عدم تناسق التقييمات الخاصة بالمتعة، مما يعكس صعوبة الكمية في قياس هذا النوع من الاستفسارات.

إن النتائج تكشف عن التحديات المتعددة التي تواجه النماذج في استهلاك الموارد عند تقييم مختلف الاستفسارات، مما يدعو لتطوير نماذج ذكاء اصطناعي تعزز من القدرة على التفكير بخطط عقلانية تتعلق بالموارد.