في خطوة ثورية، تم تقديم مجموعة بيانات BenGER (Benchmark for German Law) لتقييم أنظمة الذكاء الاصطناعي، خصوصاً نماذج اللغات الضخمة (Large Language Models) في مجال التفكير القانوني القائم على الاستيعاب في القانون الألماني. تتكون مجموعة بيانات BenGER من ثلاث مكونات رئيسية، تشمل:

1. **596 مهمة قانونية تعليمية** على شكل امتحانات نصية حرة، تغطي مستويات متعددة من التعليم القانوني، و
2. **531 مهمة استدلالية قصيرة** تستند إلى المبادئ القانونية.

أجريت تقييمات على **12 نظامًا حديثًا من أنظمة نماذج اللغات الضخمة**، شملت أنظمة مغلقة ورائدة وأخرى مفتوحة، باستخدام مجموعة من المقاييس الآلية وتلك المعتمدة على القضاة.

تمت مقارنة أداء هذه النماذج مقابل حلول مكتوبة من قبل بشر ضمن ظروف مختلفة، تشمل العمل غير المدعوم والشراكة بين الإنسان والذكاء الاصطناعي. من خلال استخدام إطار عمل جديد يُعرف باسم LLM-as-a-Judge، تم تقييم التحكيم بواسطة أنظمة الذكاء الاصطناعي بالتوازي مع بروتوكول تقييم بشري مضاعف يتضمن ثلاث مراجعات عمياء إلى جانب مراجعة من قبل المؤلف.

وكشفت النتائج أن استبدال المراجع البشري العادي بنموذج الذكاء الاصطناعي (LLM) لم يؤثر على توافق التحكيم مع مجموعة القضاة البشرية بشكل كبير. كما أوضحت النتائج أن الأنظمة المغلقة تهيمن على القائمة في جميع المجموعات، وأن التعاون بين البشر والذكاء الاصطناعي يتجاوز بكثير الأداء الفردي.

مع استمرار تطور الذكاء الاصطناعي، قد يصبح نموذج BenGER هو الأساس لقياس الكفاءة والأداء في مجالات أخرى من القانون. لنراقب كيف ستؤثر هذه المجموعة الجديدة على مستقبل الممارسات القانونية!

ما رأيكم في استخدام الذكاء الاصطناعي في مجالات مثل القانون؟ شاركونا في التعليقات!