في عالم الذكاء الاصطناعي المتسارع، تزداد أهمية معايير تقييم إبداع الآلات. لذا، تم تطوير CreativeBench، وهو معيار مبتكر يهدف إلى قياس قدرة الآلات على توليد أفكار جديدة. بعد أن أدت وفرة بيانات التدريب إلى ضرورة البحث عن أنظمة تطورية قادرة على إنتاج حقائق جديدة بشكل مستمر، أثبتت الأنظمة مثل AlphaEvolve نجاحها. ومع ذلك، كانت هناك مشكلة تعيق التقدم في هذا المجال، وهي عدم توفر تقييم كمي دقيق.

يأتي CreativeBench ليحل هذه الإشكالية من خلال تنظيمه إلى مجموعتين فرعيتين: CreativeBench-Combo وCreativeBench-Explore. تركز المجموعة الأولى على الإبداع التوافقي، بينما تهتم الثانية بالإبداع الاستكشافي، باستخدام نظام تلقائي يعزز من تشغيلية التقييم عبر هندسة عكسية ولعب ذاتي.

يستخدم CreativeBench أكواد يمكن تنفيذها لتفريق الإبداع عن الهلوسة من خلال مقياس موحد يقيس جودة وابتكار النتائج. وتحليلنا لأحدث النماذج في هذا المجال أظهر سلوكيات مميزة:

1. تحسين مقاييس الإبداع التوافقي بشكل كبير عند زيادة الحجم، لكن العائدات على الاستكشاف كانت محدودة.
2. النماذج الأكبر أظهرت ظاهرة 'التقارب بسبب التوسع'، حيث أصبحت أكثر دقة ولكن أقل تنوعًا.
3. قدرات التفكير تفيد بشكل أكبر في الاستكشاف المقيد بدلاً من الدمج.

وأخيرًا، نقدم EvoRePE، وهي استراتيجية توجيه أثناء الاستدلال تعمل على تفعيل أنماط البحث التطورية لتحسين إبداع الآلات بشكل مستمر. يجسد CreativeBench خطوة هامة نحو تقييم شامل والدفع بإبداع الآلات إلى آفاق جديدة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.