في عالم الذكاء الاصطناعي، تتربع نماذج اللغة القائمة على الانتشار (Diffusion Models) والنماذج القائمة على التدفق المستمر (Continuous Flow-based Models) على عرش البدائل غير التلقائية لتوليد النصوص. ومع تقدم هذه التقنيات، أصبح قياس التعقيد التوليدي (Generative Perplexity - gen-PPL) مقياسًا شائعًا لمتابعة التطورات - حيث يعتمد على احتمالية كل عنصر نصي بناءً على نموذج (AR) مثل GPT-2.

لكن، ما الذي يجعل هذا المقياس غير موثوق؟ وفقًا للدراسة الجديدة، يكمن الخطر في أن gen-PPL يقيس فقط القدرة التنبؤية للنموذج المُقيّم، وليس الجودة اللغوية أو الاتساق الدلالي للنصوص المنتجة. وهذا يعني أن هناك عددًا كبيرًا من النصوص التي يُمكن توقعها لكنها تفتقر إلى الجودة، مما يُؤثر سلبًا على موثوقية التقييم.

لتوضيح هذه النقطة، قامت الدراسة بتطوير نماذج بسيطة لا تحتوي على أي معلمات، تُظهر أن بإمكانها تحقيق مستويات ممتازة من gen-PPL على بيانات مثل LM1B وOpenWebText، لكن بدون تقديم نصوص متماسكة أو منطقية. في الواقع، إن هذه الصور غير المدروسة تُظهر كيف يُمكن أن تصبح مقاييس الجودة غير دقيقة.

لذا، يُرشّح الباحثون استخدام مجموعات تقييم جديدة تركز على قياس التباين التوزيعي بين النصوص المُولّدة والمراجع، مما يُقدّم صورة أوضح عن الحالة الحالية لأفضل النماذج.
يمكن أن يقود هذا التغيير إلى تحسينات كبيرة في جودة النصوص التي تُنتجها نماذج الذكاء الاصطناعي.

ما رأيكم في أهمية دقة التقييمات في تطوير الذكاء الاصطناعي؟ شاركونا في التعليقات.