في خطوة غير مسبوقة نحو سد الفجوة في تقييم الأداء المتعلق بالأطر التنظيمية المالية غير الغربية، تم إطلاق معيار جديد يحمل اسم **IndiaFinBench**. يُعد IndiaFinBench أول معيار عالمي متاح لجمهور الباحثين والمختصين، ويهدف إلى تقييم أداء نماذج اللغات الضخمة (Large Language Models) على النصوص المالية التنظيمية الهندية. حتى اليوم، كانت معظم المراجع المستخدمة في تقييم نماذج الذكاء الاصطناعي تستند إلى مستندات وغالبا ما تكون مرتبطة بالسوق المالي الغربي، مما ساهم في إغفال أهمية الأطر التنظيمية الهندية.
تضمن IndiaFinBench **406 زوجاً من الأسئلة والأجوبة**، جميعها خضعت للتعليق من قبل خبراء، واستندت إلى **192 وثيقة** من هيئة الأوراق المالية والبورصات الهندية (SEBI) وبنك الاحتياطي الهندي (RBI). يتم تصنيف الأسئلة إلى أربعة نوعيات: تفسير تنظيمي، تفكير رقمي، اكتشاف تناقض، والتفكير الزمني. ومن المثير للاهتمام أن جودة التعليق تم اختبارها عبر مرحلة ثانوية تعتمد على النموذج، حيث أظهر معدل اتفاق الكابا 0.918 في اكتشاف التناقضات، مما يضمن دقة البيانات الخاصة بالمعيار.
تفاوتت دقة الأداء لنماذج الذكاء الاصطناعي، حيث تم تقييم اثني عشر نموذجاً في ظروف غير مسبوقة (zero-shot). تتراوح النتائج بين **70.4%** لنموذج Gemma 4 E4B و**89.7%** لنموذج Gemini 2.5 Flash، مما يدل على تفوّق هؤلاء النماذج بشكل ملحوظ مقارنة بقاعدة بيانات البشر غير المتخصصين التي كانت دقتها **60.0%**.
وأشار التقرير إلى أن تحدي التفكير الرقمي كان الأكثر تمييزاً بين النماذج، حيث بلغ متوسط الفارق في الأداء 35.9 نقطة مئوية. باستخدام اختبار الدلالات الإحصائية، تم تحديد ثلاث مستويات مختلفة من الأداء.
يمكن للمهتمين زيارة الرابط المخصص للحصول على مجموعة البيانات، كود التقييم، ونتائج النماذج جميعها متاحة على GitHub. وهذا يعكس خطوة كبيرة نحو تعزيز نتائج الأبحاث المتعلقة بالذكاء الاصطناعي وتطبيقاته في مجالات جديدة، مما يعكس الحاجة الملحة لتوفير بيانات تغطي جميع الأنماط الثقافية والتنظيمية.
فحص الأداء المالي: منصة جديدة لتقييم نماذج الذكاء الاصطناعي في الهند
تم إطلاق IndiaFinBench، أول معيار توضيحي متاح لتقييم أداء نماذج اللغات الضخمة في مجال النصوص التنظيمية المالية الهندية. يتضمن هذا المعيار 406 زوج من الأسئلة والأجوبة الخبيرة، مشددا على فجوة كبيرة في تغطية الأطر التنظيمية غير الغربية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
