في عالم تقييم الجودة، تبرز اثنتان من المنهجيات الرئيسية التي تُستخدم على نطاق واسع: التقييم القائم على المعايير (Rubric-Based Scoring) والذي يقيم العناصر وفقًا لمعايير محددة مسبقًا، ومنهجية الحكم المقارن (Comparative Judgment) التي تستنبط تفضيلات ثنائية بين النتائج. ورغم أن كلا المنهجين شائعين، فإن الاختيار بينهما نادرًا ما يُبرَّر.

تسجل JudgmentBench تقدمًا كبيرًا في هذا المجال، حيث تُعدّ معايير تقييم جديدة تستند إلى بيانات حقيقية مكونة من 30 مهمة قانونية حقيقية، مرفقة بـ 1,539 تقييمًا قائمًا على المعايير و1,530 حكمًا تفضيليًا جمعهما محامون ممارسون، بما في ذلك من شركات قانونية بارزة في الولايات المتحدة.

هذا يُعتبر أول مجموعة بيانات متاحة بشكل علني في مجال الخبرة العالية، حيث تم جمع التقييمات من نفس الخبراء لنفس العناصر. استخدمنا مخرجات من نماذج لغوية ضخمة (Large Language Models) بمستويات جودة مصنفة إلى ثلاثة مستويات، وفي مقارنة أولية، أظهرت الأحكام المقارنة استعادة ترتيب الجودة المقصود بشكل أفضل بكثير من التقييمات التقليدية (بمعدل ارتباط سبيرمان 0.908 مقابل 0.150، مع فرق مقدر يساوي 0.758 [0.494، 1.021])، مع استهلاك أقل من نصف وقت التقييم.

تظهر هذه الأنماط أيضًا أن النتائج مشابهة للمراجعين البشريين ومنصات تقدير الجودة الآلية. بالإضافة إلى هذه المقارنة الأولية، يدعم الهيكل المصاحب للبيانات أجندة بحثية أوسع حول كيفية استقصاء وتحليل وتوظيف حكم الخبراء في المجالات التي تفتقر إلى حقائق مؤكدة.

في ضوء هذه النتائج، يبقى السؤال: كيف يمكن أن تؤثر هذه التطورات على مستقبل أعمال المحاماة وتقييم الجودة في المجالات الأخرى؟ شاركونا آراءكم في التعليقات!