في عالم الذكاء الاصطناعي، يُعتبر قياس القدرة الإبداعية لنماذج اللغات الضخمة (Large Language Models - LLMs) أحد أبرز التحديات التي تواجه الباحثين. لذا طُرح اختبار QUIET (Quality Understanding via Interlocked Evaluation Testing) كحل مبتكر يسعى إلى تجاوز التقييمات التقليدية التي تعتمد على المفاضلات وطرق الاختيار متعددة الخيارات.

يشتمل اختبار QUIET على نموذج قصصي متكامل يتمحور حول عدة فراغات (10-20 فراغ) حيث يُحدّد لكل فراغ محتوى محدد وشروط معينة. وكل فراغ يعتمد على الفراغات السابقة، مما يجعل هذا النموذج قادراً على قياس الإبداع بشكل فعال. في هذا النظام، يتم اعتبار أن ملء الفراغات يتم في وضعية التوليد المفتوح، ويتضمن ذلك استخدام بروتوكول تقييم آلي قائم على نظرية المعلومات.

تم تصميم هذا البروتوكول ليس فقط لتقييم مدى تلبية المحتوى للشروط المحددة، بل أيضاً لتقدير درجة المفاجأة المرتبطة بالإجابات المقدمة. وبالتالي، فقد تم وضع معيار جديد لتقييم الإبداع، حيث تُسجل الإجابات الخلاقة التي تُلبّي الشروط وتثير الدهشة نقاطاً أعلى، بينما تُعاقب الإجابات التي تفتقر إلى الإبداع أو لا تُحقق الشروط.

تعتبر هذه الطريقة خطوة أساسية نحو تحقيق تقييم موضوعي ودقيق، مما يسهم في تطوير نماذج الذكاء الاصطناعي لتحسين أدائها الإبداعي. من خلال QUIET، يمكننا أن نكون أمام مستقبل يتمكن فيه الذكاء الاصطناعي من الإبداع كما يفعل الإنسان، فهل نشهد قريباً طوفاناً من الإبداعات التقنية؟

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.