في عالم يتطور بسرعة حول الذكاء الاصطناعي، يمثل تقييم قدرات نماذج اللغات الضخمة (Large Language Models) في تحليل البيانات المالية أحد أبرز التحديات التي تسعى لتجاوزها الأبحاث الحالية. تكمن الصعوبة في الحاجة إلى معايير تقييم فعالة تساعد في عزل المهارات الأساسية لهذه النماذج في فهم الاستفسارات وتنفيذ الحسابات المعقدة.
لذا، قدم الباحثون منهجية مبتكرة تُعرف بـ 'توليد البيانات المعزز بالسلاسل الزمنية' (Time Series Augmented Generation - TSAG)، والتي تهدف إلى قياس دقة reasoning لدى نماذج اللغات الضخمة في تحليل البيانات المالية. تعتمد هذه الإطار المبتكر على تفويض المهام الكمية إلى أدوات خارجية قابلة للتحقق.
قامت الدراسة بتطبيق هذه المنهجية من خلال دراسة تجريبية واسعة النطاق، حيث استخدمت مجموعة من 100 سؤال مالي لقيس فعالية نماذج مثل GPT-4o وLlama 3 وQwen2. وتم قياس الأداء وفقاً لمعايير تشمل دقة اختيار الأدوات ودرجة الالتزام وقلة الأخطاء في المعلومات.
وتظهر النتائج أن النماذج القادرة يمكنها تحقيق دقة قريبة من الكمال في استخدام الأدوات، مما يعزز فعالية نموذج 'توليد البيانات المعزز بالسلاسل الزمنية'.
يعتبر هذا العمل مساهمة رئيسية في مجال الذكاء الاصطناعي المالي، حيث يقدم إطاراً تقييمياً جديداً ورؤى تجريبية قيمة حول أداء النماذج، بالإضافة إلى دعوة مفتوحة لتعزيز الأبحاث القياسية في هذا المجال.
ثورة جديدة في الذكاء الاصطناعي: تقييم قدرات نماذج اللغات الضخمة لتحليل البيانات المالية
يقدم الباحثون منهجية تقييم جديدة لقياس قدرات نماذج اللغات الضخمة في معالجة البيانات المالية باستخدام آلية مبتكرة تُعرف باسم 'توليد البيانات المعزز بالسلاسل الزمنية' (TSAG). الدراسة تكشف عن دقة مذهلة في أداء هذه النماذج في المهام المالية المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
