في عالم الذكاء الاصطناعي، يقفز مستوى الأداء كل يوم مع ظهور أنظمة جديدة قادرة على فهم النصوص والصور معًا. في هذا الاتجاه، قدم الباحثون معياراً تقييمياً جديداً يُعرف باسم CFMME، وهو مصمم خصيصًا للاختبار الشامل لنماذج الرؤية واللغة الكبيرة (LVLMs) ضمن السياق المالي الصيني.
يشتمل CFMME على 6,052 نموذجًا تعكس مجالات متعددة من المعرفة الأكاديمية الأساسية إلى التطبيقات الواقعية المعقدة. يتناول المعيار ثمانية أنماط مالية رئيسية في الصور وأربع مهام متعددة الجوانب، مما يوفر منصة مثالية لقياس قدرة النماذج على فهم المعلومات الحقيقية واتخاذ القرارات المدروسة.
أظهرت نتائج التقييم أن النموذج الأحدث قد حقق دقة عامة تبلغ 66.11% في مهام الإجابة على الأسئلة، بمعدل درجة 77.18 في مهام الكشف والتعرف واستخراج المعلومات. وعلى الرغم من هذه النتائج المشجعة، تشير التحليلات إلى وجود مجال كبير للتحسينات المستقبلية.
علاوة على ذلك، قدمت التحليلات الدقيقة لأسباب الأخطاء والأداء عبر الجوانب المتعددة رؤى قيمة ستساعد في تحسين الأداء المستقبلي لنماذج LVLMs، خاصة في التعامل مع المهام المالية المعقدة. نتطلع إلى رؤية كيف سيساهم CFMME في دفع تقدم أعمق في هذا المجال الناشئ.
معايير جديدة للذكاء الاصطناعي: تقييم شامل لنماذج الرؤية واللغة في السياق المالي الصيني
تم تقديم معيار تقييم متعدد النماذج المالية CFMME، والذي يهدف إلى اختبار قدرات نماذج الرؤية واللغة الكبيرة (LVLMs) في الصين. النتائج تشير إلى فُرص كبيرة لتحسين الأداء في هذا المجال المعقد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
