مع تقدم نماذج اللغة الكبيرة (LLMs) في فهم اللغة والتفكير والإنتاج، بات الإبداع واحداً من أكثر المجالات إثارة للاهتمام. ولكن، يعد تقييم هذا الإبداع أمراً معقداً، فهو يعتمد عادةً على مقاييس مرتبطة بمهام معينة، مما يقيد القابلية للتوسع ويؤثر على عمومية النتائج. للتغلب على هذه التحديات، نقدم إطاراً آلياً لتقييم إبداع نماذج اللغة بشكل مستقل عن السياق.
يعتمد نظامنا الجديد على فصل أدوات القياس عن المهام الإبداعية، مما يسهل عملية التقييم بشكل أكبر. تم قياس الإبداع المتباعد باستخدام مفهوم الإنتروبيا الدلالية، وهو مقياس قوي يُستخدم لقياس الأصالة والتنوع، وقد تمت مصادقته عن طريق تقييمات بشرية وقرارات تتعلق بالأصالة من قبل نماذج اللغة.
أما الإبداع المتقارب، فقد تم تقييمه من خلال إطار مبتكر يعتمد على استرجاع المعلومات، وذلك لتقديم تقييم حساس للسياق حول مدى استيفاء المهام مع تحسين الكفاءة بأكثر من 60%. تم اختبار هذا الإطار في ثلاثة مجالات مختلفة: حل المشكلات (MacGyver)، وتوليد الأفكار البحثية (HypoGen)، والكتابة الإبداعية (BookMIA) باستخدام مجموعة واسعة من نماذج اللغة.
تظهر النتائج التجريبية أن هذا الإطار قادر على التقاط العناصر الأساسية للإبداع، بما في ذلك الأصالة والتنوع ومدى استيفاء المهام، كما يكشف كيف تؤثر خصائص النموذج مثل الحجم ودرجة الحرارة والتحديثات على الأداء الإبداعي. يضع عملنا معيارًا يمكن تكراره وتعميمه لتقييم الإبداع في نماذج اللغة بشكل آلي، مما يمهد الطريق لأطر تقييم قابلة للتوسع وسرعة في تطور الذكاء الاصطناعي الإبداعي.
ابتكار آلي: تقييم إبداع نماذج اللغة عبر مهام مفتوحة بشكل ثوري!
تسعى الأبحاث الحديثة إلى تقييم الإبداع في نماذج اللغة الكبيرة (LLMs) بطريقة مبتكرة وموضوعية. نقدم إطاراً آلياً يتيح قياس الإبداع عبر مهام مفتوحة بدون قيود معيارية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
