في ظل التطورات السريعة التي شهدتها نماذج اللغات الضخمة (Large Language Models)، أصبح من الواضح أن أداء هذه النماذج في المجالات المرتبطة بالتفكير والإبداع يحتاج إلى المزيد من الاستكشاف. لذلك، تم تقديم معيار جديد يسمى "CreativityBench"، والذي يمثل أداة مبتكرة لتقييم قدرة الذكاء الاصطناعي على استخدام الأدوات بشكل إبداعي.

يهدف CreativityBench إلى قياس كيفية استغلال النماذج المتاحة للأشياء من خلال التفكير في خصائصها وقدراتها بدلاً من الاعتماد على الاستخدامات التقليدية. يتضمن المعيار بناء قاعدة بيانات كبيرة تحتوي على معلومات تتعلق بـ 4000 كائن و150 ألف وصف، تربط بين الكائنات والأجزاء والخصائص والاستخدامات العملية.

تم إنشاء 14,000 مهمة عملية تتطلب أن تحدد النماذج حلولاً غير واضحة ولكنها قابلة للتطبيق جسديًا ضمن قيود معينة. وقد أظهرت التقييمات التي أجريت على 10 من أحدث نماذج الذكاء الاصطناعي أن هذه النماذج غالبًا ما تستطيع اختيار كائن مناسب، لكنها تفشل في تحديد الأجزاء الصحيحة وخصائصها وكذلك الآليات الفيزيائية الضرورية لحل المهام المطلوبة، مما يؤدي إلى انخفاض كبير في الأداء.

وعلى الرغم من أن تحسينات النماذج تتزايد، إلا أن قدرة التفكير الإبداعي لا تترجم بفعالية إلى اكتشاف القدرات الإبداعية للأدوات. يشير CreativityBench إلى أن استخدام الأدوات بشكل إبداعي يمثل تحديًا كبيرًا للنماذج الحالية، مما يفتح آفاقًا جديدة للتطور في مجالات التخطيط والتفكير في الوكلاء المستقبليين.