FinTrace: الثورة في تقييم أدوات الذكاء الاصطناعي للمهام المالية الطويلة!
🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

FinTrace: الثورة في تقييم أدوات الذكاء الاصطناعي للمهام المالية الطويلة!

تقدم FinTrace معيارًا جديدًا لتقييم نماذج اللغة الكبيرة (LLMs) في المهام المالية، مستعرضة 800 مسار خبراء لقياس جودة التفكير. بالرغم من تقدم النماذج، لا يزال هناك تحدٍ في جودة الإجابات النهائية.

في عالم الذكاء الاصطناعي، تبرز الحاجة إلى أدوات أكثر فاعلية في تنفيذ المهام المالية الطويلة. هنا تتجلى أهمية FinTrace، معيار جديد يقدم تقييمًا شاملًا لنماذج اللغة الكبيرة (LLMs) التي تتيح التعامل مع البيئات الخارجية في سياق المهام المالية. فقد أظهرت الدراسات الأخيرة أن القدرة على استدعاء الأدوات تُعتبر محورية، ومع ذلك، ظلت التقييمات السابقة محصورة في سيناريوهات محدودة واستندت إلى مقاييس مستوى الاستدعاء التي لا تعكس جودة التفكير على مستوى المسار.

تطمح FinTrace إلى سد هذه الفجوة من خلال تقديم 800 مسار، تم تصنيفها من قبل خبراء في 34 فئة من المهام المالية، تتنوع في مستويات الصعوبة. يستخدم FinTrace بروتوكول تقييم قائم على قوالب مع تسع مقاييس مرتبة على أربعة محاور: صحة الإجراء، كفاءة التنفيذ، جودة العملية، وجودة المخرجات. هذه المقاييس تتيح تقييمًا دقيقًا للغاية لسلوك استدعاء الأدوات لدى نماذج اللغة الكبيرة.

نتائج تقييم 13 نموذجًا من نماذج LLMs تكشف عن أن النماذج الرائدة تحقق أداءً قويًا في اختيار الأدوات، ولكنها تواجه صعوبة في استخدام المعلومات وجودة الإجابات النهائية. هذا يشير إلى فجوة ملحوظة بين استدعاء الأدوات المناسبة والتفكير الفعال بشأن مخرجاتها.

لإحداث تغيير بالفعل، تم إنشاء FinTrace-Training، وهو أول مجموعة بيانات تفضيلات على مستوى المسار خاصة باستدعاء الأدوات المالية، تتضمن 8196 مسارًا منسقًا بالسياقات والأزواج التفضيلية. تم تحسين Qwen-3.5-9B باستخدام التدريب المراقب متبوعًا بتحسين التفضيلات المباشر (DPO)، مما أظهر أن التدريب على FinTrace-Training يُحسن consistently من مقاييس التفكير البينية، حيث أثبت DPO فعاليته الكبيرة في كبح أنماط الفشل. إلا أن جودة الإجابات النهائية لا تزال تمثل عقبة، مما يشير إلى أن التحسينات على مستوى المسار لم تنتقل بالكامل إلى جودة المخرجات النهائية بعد.

إجمالاً، يُظهر FinTrace كيف يمكن للذكاء الاصطناعي تطوير جوانب جديدة في عالم المال وكيف يمكن أن تُسهم النماذج المستقبلية في تحسين الأداء في المهام المالية المعقدة. هل تعتقد أن هذه التطورات ستحدث ثورة في عالم الفينانس؟ انتظرونا لمزيد من الاستكشافات المثيرة!
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة