في عالمٍ يمتلئ بالتعقيدات القانونية، تُعتبر عملية تصنيف المعالجات السلبية في السوابق القانونية من المهام الحاسمة. وفي هذا السياق، تظهر الحاجة الملحة لأتمتة هذه العملية بدقة وفاعلية. دراسة جديدة نشرت على arXiv تهدف إلى معالجة مشكلات الدقة التقليدية، مقدمةً إطار عمل جديدًا للتقييم.

تقوم الدراسة بتقييم أداء نماذج اللغات الضخمة (Large Language Models) الحديثة من خلال استخدام مجموعة بيانات غنية تم تصنيفها من قبل خبراء، تتضمن 239 اقتباسًا قانونيًا من الواقع. وابتكرت الدراسة مقياسًا جديدًا يسمى "معدل خطأ شدة المتوسط" (Average Severity Error) لقياس التأثير العملي للأخطاء في التصنيف.

أظهرت التجارب نتائج مثيرة حيث حصل نموذج Google Gemini 2.5 Flash على أعلى دقة في مهمة التصنيف العام (79.1%)، بينما كان نموذج OpenAI GPT-5-mini هو الأكثر أداءً في التصنيف الدقيق المعقد (67.7%).

تُعتبر هذه العمل بمثابة قاعدة أساسية جديدة، وتوفر مجموعة بيانات غنية بالسياق، وتقدم مقياس تقييم مصمم خصيصًا لتلبية متطلبات هذه المهمة القانونية المعقدة. إذًا، يعد هذا التقدم خطوة مهمة نحو تحسين عمليات المعالجة القانونية باستخدام تقنيات الذكاء الاصطناعي.

هل تعتقد أن تطبيق نماذج الذكاء الاصطناعي في المجال القانوني يمكن أن يحدث تغييرًا جذريًا؟ شاركونا آراءكم في التعليقات!