في عالم الذكاء الاصطناعي، يعتبر تقييم النماذج المقدمة في المهام القانونية أحد أكبر التحديات. تقليديا، كان التركيز منصباً على قدرة النماذج على إنتاج حجج قانونية أو مستندات. ومع ذلك، يعتبر دورها في “الحكم” على هذه الحجج - من خلال تقييم المتطلبات المختلفة، وتطبيق القوانين على الحقائق، وإصدار قرارات مستندة إلى منطق - أساسياً بنفس القدر في نظام قانوني يعمل بكفاءة.

تقديم Magis-Bench يأتي كتطور جديد في هذا المجال، حيث يعد معياراً مصمماً خصيصاً لتقييم نماذج اللغات الكبيرة (LLMs) على المهام القانونية التي يقوم بها القضاة. يعتمد المعيار على أسئلة من امتحانات تنافسية حالية في البرازيل تم إجراؤها للفترة بين 2023 و2025. يتألف Magis-Bench من 74 سؤالاً من ثمانية امتحانات، تشمل تحليلات قانونية متعددة الأبعاد تمثل تحديات حقيقية بحق للقضاة.

مثلما يُظهر البحث النهائي، تم تقييم 23 نموذجاً من نماذج اللغات الكبيرة باستخدام منهجية "النموذج كقاضي"، وتم الاستناد إلى أربعة نماذج مستقلة كحكماء. أظهرت النتائج تحقيق توافق قوي بين القضاة، حيث حصل نموذج Google Gemini-3-Pro-Preview على أعلى متوسط درجات 6.97 من 10. يليه نموذج Gemini-3-Flash-Preview بواقع 6.67، ثم نموذج Claude-4.5-Opus بـ 6.46.

رغم الأداء الجيد للموديلات، إلا أن النتائج تكشف عن تحديات واضحة، حيث لم تتجاوز أفضل النماذج 70% من الدرجة القصوى المطلوبة، مما يعكس الصعوبة المستمرة في إنتاج حجج قانونية وكتابات بهذا المستوى العالي.

لذا، يتم إصدار المعيار الكامل ونتائج النماذج وكود التقييم لتعزيز البحث المستقبلي حول قدرات الذكاء الاصطناعي في مجال القانون. هل يستطيع الذكاء الاصطناعي حقاً الوصول إلى مستوى القضاة؟

هذه هي معضلة البحث القانوني في عصرنا الحديث، وستستمر أهمية تطوير نماذج تملك الفهم العميق للمجال القانوني وتأثيره على المجتمعات.