تتطور نماذج اللغة الضخمة (LLMs) لتصبح أدوات موثوقة لفهم المعلومات المالية، مثل مكالمات الأرباح وأسئلة المستثمرين. ومع ذلك، تبرز مشكلة مخاطر القياس عندما لا تكون تصنيفات النماذج محايدة كما يُعتقد. هذه المشكلة تتعلق بكيفية تأثير صياغة المعايير واختيار المقاييس على نتائج الاختبارات في مجال معالجة اللغة الطبيعية المالية.
في دراسة حديثة حول اختبار الاعتراف بالتزامات المالية الضمنية في اليابان (JF-ICR)، تم تحليل 253 عنصر اختبار مختلف عبر أربع نماذج لغة رائدة. وقد أظهرت النتائج أن تغيير صياغة المعايير يمكن أن يغير بشكل كبير نتائج تصنيفات النماذج، حيث تراوحت نسبة الاتفاقية من 70.0% إلى 83.4% بين تصنيفين متباينين. الأمر الذي يشير إلى أن الأنماط المستخدمة في صياغة المعايير تؤثر على فهم النماذج للمعاني.
علاوة على ذلك، كانت بعض المقاييس غير مفيدة تحت توزيع فئات JF-ICR، حيث كانت بعض المقاييس مثل الدقة بالطريقة التقليدية سهلة للغاية بسبب هيمنة فئة البيانات الكبرى. في حين أن مقاييس أخرى كانت مليئة بالضوضاء، حيث كانت الفئة النادرة تحتوي على عدد قليل من الأمثلة.
نتيجةً لذلك، تم التعرف على عدد قليل من المقاييس القابلة للتطبيق مثل الدقة الدقيقة وF1 الموزونة. والأكثر إثارة للاهتمام هو أن المطالبات المتعلقة بالتصنيف أصبحت أكثر دفاعية بعد تنفيذ مراجعة للمقاييس، حيث اتفقت تقنيات تصنيف متعددة على مجموعة معينة من المقاييس القابلة للتعريف.
في الختام، بينما لا يقدم هذا العمل قائمة جديدة بالموديلات، إلا أنه يعزز أهمية الانضباط في تقييم المعايير المالية، مشددًا على ضرورة توفر الشفافية في التصنيفات.
مخاطر القياس في معالجة اللغة الطبيعية المالية: فهم دقيق لمعايير الاختيار والحساسية
تتزايد أهمية نماذج اللغة الضخمة (LLMs) في معالجة المعلومات المالية بدقة، لكن هناك مخاطر تتعلق بالقياس قد تؤثر على نتائج التقييم. اكتشافات جديدة تكشف عن كيفية تأثير الصياغات والمعايير على دقة تصنيفات النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
