في عالم الذكاء الاصطناعي، تلعب نماذج اللغة الكبيرة (LLMs) دورًا متزايد الأهمية، خصوصًا عندما يتعلق الأمر بتقييم التفضيلات الثنائية. ولكن، كانت هذه النماذج تعاني من بعض الضوضاء عند مستوى العينة الفردية، مما يؤثر على دقة التقييم. في دراسة حديثة نُشرت في arXiv، طرح الباحثون طريقة جديدة تهدف إلى تحسين دقة الحكم بالتأكيد على توزيع الوقت المستعمل في الاستدلال.

تشير نتائج الدراسة إلى أن القواعد الشائعة التي تُستخدم مثل تصويت الأغلبية وطرق التجميع الأخرى ليست دائمًا فعالة عند وجود حالات متساوية. لذا، جاء الحل عبر منهج مدروس لضبط الاستدلال يركز على إنشاء مجموعة من النماذج التي تقوم بتوليد تقييمات مستقلة متعددة لكل عنصر.

تم تصميم الطريقة المقترحة لتمثل تفضيلات ثلاثية باستخدام صيغة برادلي-تيري-دافيسون، والتي تأخذ في الاعتبار الهامش بين التقييمات ومعدل عدم التعادل. وقد أظهرت النتائج عبر معايير تقييم متنوعة أن هذه الطريقة الجديدة تقلل من متوسط ​​خطأ التقييم (MAE) وتزيد من دقة التفضيلات الثنائية مقارنة بالأساليب القياسية. وعندما تم تقييمها ضد تسميات متوافقة مع آراء البشر، أثبتت أنها تساوي أو تتجاوز أداء المقيمين البشريين الأفراد.

تُظهر هذه النتائج كيف يمكن تخصيص وقت الاستدلال بشكل مدروس واستخدام طرق التجميع التي تأخذ في الاعتبار التوزيع لتحويل أحكام النماذج الفردية المزعجة إلى تقييمات موثوقة بفاعلية.