في عالم الذكاء الاصطناعي، يتقدم الوكلاء (Agents) في القدرة على التعامل مع المهام الميكانيكية المرتبطة بتحليل البيانات المالية، مثل استرجاع الوثائق، وحساب المعادلات، وتحديث جداول البيانات. لكن التحدي الأكبر والأكثر قيمة يكمن في القدرة على التفكير النقدي والإجابة على الأسئلة المفتوحة التي تحدد عمل المحللين الخبراء. للأسف، لا تلتقط المعايير الحالية هذه الفئة من التحديات، وتلك التي تحاول تقييم التفكير المفتوح تعتمد على نتائج يحكمها النموذج نفسه، مما يؤدي إلى صلة دائرية وضجيج في النتائج.
لذا، نقدم لكم Hedge-Bench 1.0: معيار جديد يضم 102 مهمة فعلية تتعلق بعمل المحللين في صناديق التحوط، وتستند هذه المهام إلى مسارات التفكير التي يتبعها المحللون المحترفون عند التعامل مع مصادر المعلومات ذات الصلة. وهذه الطريقة تتيح تقييمًا دقيقًا بناءً على الخطوات التي تم التحقق منها من قبل الخبراء.
ومع ذلك، تبين أن النماذج الحديثة والوكلاء يكافحون في تجاوز 16% على هذا المعيار. نحن فخورون بالإعلان عن توفير مجموعة البيانات وأدوات التقييم عبر الرابط: github.com/Trata-Inc/trata-hedge-bench. هذا المعيار يعد خطوة هامة نحو تحسين أداء الذكاء الاصطناعي في مجال التحليل المالي، حيث يساهم في تقليص الفجوة بين الذكاء الاصطناعي والعمل البشري الفعلي.
Hedge-Bench: معيار جديد لتقييم أداء الوكلاء في مهام التحليل المالي المعقدة!
تقدم Hedge-Bench معيارًا مبتكرًا يقيّم قدرة الوكلاء الاصطناعيين على التعامل مع مهام التحليل المالي العميقة. يتضمن المعيار 102 مهمة فعلية تتعلق بالتحليل المالي تُسهم في تحسين أداء الذكاء الاصطناعي في هذا المجال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
