في عالم الذكاء الاصطناعي، تعتبر طرق تقييم نماذج اللغات الضخمة (LLMs) محورًا مهمًا لتحسين وتقويم أداء هذه النماذج. في هذا السياق، تمثل مبادرة Prosa نقطة تحول جديدة، حيث تعتمد على تقييمات قائمة على معايير محددة بدلاً من الاعتماد على نموذج قضاة واحد.

تظهر الأبحاث أن التقييم باستخدام النظام التقليدي يحمل بعض المخاطر، خصوصًا فيما يتعلق بالتحيز الذي قد ينتج عن اختيار نموذج القاضي. وكنتيجة لهذه التحديات، يتم استخدام تقييمات ثنائية بواسطة عدة قضاة، مما يقلل بشكل كبير من هذه الحساسية.

Prosa، وهو المعيار الأول للمحادثات باللغة البرتغالية، يقوم بتقييم 1000 محادثة من WildChat من خلال ثلاثة قضاة يمثلون ثلاث عائلات نموذجية، مما يتيح قياس دقيق وشامل لأداء النماذج. ولذا، يُظهر التحليل أن القضاة الثلاثة يتفقون على كل التقييمات الـ16 عندما يتم استخدام تصفية المعايير، بينما كانوا متفقين على 7 تقييمات فقط عند استخدام نظام التقييم التقليدي.

بالإضافة إلى ذلك، تُظهر البيانات أن تصفية المعايير تزيد من الفجوة في الدرجات بين النماذج القريبة بنسبة 47%، مما يعزز قدرة Prosa على التمييز. يبلغ تكلفة تقييم نموذج جديد باستخدام Prosa حوالي 2.1 دولار عند استخدام نموذج Gemini 3 Flash كقاضي، مما يجعلها طريقة ميسورة وفعالة.

في خطوة لتعزيز الفرص، يقوم فريق Prosa بإتاحة المعيار وكود التصفية للجمهور، لضمان إمكانية تقييم النماذج المستقبلية تحت ظروف مماثلة. وهذا يفتح الأبواب أمام استخدام طريقة التقييم القائمة على المعايير بعيدًا عن Prosa، مسندًا أنواع تقييمات أخرى تستند إلى الأسئلة المفتوحة.

ختاماً، تشكل Prosa إضافة قيمة لأدوات تقييم الذكاء الاصطناعي وتظهر كيف يمكن للتطورات التكنولوجية تقديم حلول أكثر دقة وموضوعية.