في ظل الانتشار المتزايد لنماذج اللغات الضخمة (Large Language Models - LLMs) كمحكمين في العديد من المجالات، بات من الواضح أن قراراتها قد تتأثر بعوامل يجب أن تكون غير ذات صلة. أحد أبرز هذه العوامل هو حساسية ترتيب العناصر عند تقييم الحقائق. أي أن الإجابات التي تبدو مصقولة يمكن أن تحمل مخاطر كبيرة تزامنيًا لإدراك الحقائق.

لذا، تم تطوير طريقة جديدة تُعرف بـ PCFJudge. هذا الأسلوب يعيد تنفيذ نفس التعليمات الخاصة بتقييم الحقائق عبر ترتيبات متعددة لنفس مجموعة المرشحين، ويجمع بين النتائج والنقاط والإشارات المتعلقة بالشك في قرار فردي واحد.

وفقًا للاختبارات التي أُجريت على مجموعة بيانات RewardBench 2 لتقييم الحقائق، تمكنت PCFJudge من تحسين الأداء بمقدار يصل إلى 7 نقاط مطلقة مقارنةً بالطريقة التقليدية. تشير النتائج إلى أن الفائدة الضخمة تأتي من الجمع بين النتائج عبر الترتيبات بدلاً من الاعتماد على طبقات تحكيم أكثر تعقيدًا.

هذا الاكتشاف يسلط الضوء على أن جزءًا كبيرًا من الأخطاء في تقييم الحقائق قد ينشأ من عدم الاستقرار الناتج عن ترتيب العناصر، وأن المتوسط على هذا التباين البسيط يعتبر وسيلة فعالة لتحسين موثوقية تقييم نماذج اللغات الضخمة. هل تعتقد أن هذه الطريقة ستُحدث فارقًا في مستقبل تقييم المعلومات؟