في عالم التكنولوجيا الحديثة، تلعب نماذج اللغة الكبيرة (Large Language Models) دورًا حيويًا في مجموعة واسعة من التطبيقات، ولكن ما مدى كفاءتها في فهم القوانين المحلية؟ هنا يأتي دور منصة TW-LegalBench، التي تسلط الضوء على الاحتياجات الفريدة للنظام القانوني التايواني.
تستفيد TW-LegalBench من مجموعة غنية من البيانات القانونية الرسمية المتاحة للجمهور، مما يتيح لها تقويم أداء نماذج اللغة الكبيرة في سياق القوانين التايوانية. تتألف المنصة من ثلاثة أنواع من المهام:
1. أكثر من 16,000 سؤال اختيار من متعدد (MCQs) مستمد من خمس سنوات من الامتحانات الرسمية في 18 مجالاً مهنيًا.
2. 117 سؤالًا مفتوحًا (OEQs) من امتحانات المحامين مع معايير تقييم رسمية.
3. أكثر من 14,000 حالة تنبؤ بالحكم القانوني (LJP) تغطي مئات فئات الجرائم.
تم تقييم 13 نموذجًا من نماذج اللغة الكبيرة باستخدام معايير مختلفة، بما في ذلك الدقة في الأسئلة الاختيارية، وإطار عمل يفصل أداء النموذج كمحكم بناءً على معايير التعليم، ومعايير دقة الحكم وإحالة المواد القانونية.
الكشفات تظهر أن النماذج الأفضل أداءً تفوقت على العتبة المطلوبة للمحامين المؤهلين (معدل النجاح: 11%)، لكنها لم تصل إلى ما هو مطلوب للقضاة والمدعين العامين (معدل النجاح: 1-2%). وعلى الرغم من مقدرتها على التنبؤ بنوع الأحكام بدقة معقولة، إلا أن النماذج لم تستطع حتى الآن استحضار المواد القانونية الدقيقة.
تؤكد هذه النتائج أن إنتاج نصوص قانونية موثوقة لا يزال يمثل تحديًا كبيرًا لنماذج اللغة الكبيرة، حتى لو كان أداؤها في امتحانات التأهيل قريبًا من المستوى البشري.
نستنتج من هذه الدراسة أن تطور الذكاء الاصطناعي في حل المسائل القانونية يحتاج إلى المزيد من التحسين والتركيز، خاصة في ما يتعلق بالفهم العميق للنصوص القانونية الخاصة بكل بلد.
منصة TW-LegalBench: ثورة في قياس الفهم القانوني التايواني باستخدام الذكاء الاصطناعي
تقدم منصة TW-LegalBench نموذجاً جديداً لتقييم قدرات نماذج اللغة الكبيرة (LLMs) في الفهم القانوني التايواني. تشير النتائج إلى تحسن ملحوظ، لكنها تكشف أيضاً عن تحديات لا تزال تواجهها هذه النماذج في تحقيق دقة قانونية متقدمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
