تتطور تقنيات الذكاء الاصطناعي بوتيرة مذهلة، ومعها تزداد توقعات الشركات تجاه وكالات الذكاء الاصطناعي (AI Agents) لتكون قادرة على تنفيذ سير عمل كامل، بدءًا من التعليمات عالية المستوى وصولاً إلى إنتاج جداول بيانات متكاملة. ومن المشهد الانتقائي للذكاء الاصطناعي، تم تطوير وكالة جديدة تبتكر جداول بيانات من الصفر، وهو ما يعد أمرًا حيويًا في المجالات المالية مثل نمذجة البيانات (Financial Modeling) والتنبؤ (Forecasting) وتحليل السيناريوهات (Scenario Analysis).

ومع ذلك، فإن المقاييس الحالية لتقييم جداول البيانات لا تعكس فعالية هذه القدرات المتقدمة، حيث تركز عادةً على أسئلة ردية أو تعديلات على صيغ فردية. لذا، تأتي الدراسة الجديدة المعروفة باسم MBABench لتسليط الضوء على هذا الجانب المفقود، حيث تُعد واحدة من أولى التقييمات لوكالات الذكاء الاصطناعي في مهام الجداول المعقدة. تركّز الدراسة على سير العمل الحيوية الاقتصادية مثل نمذجة البيانات وتحليل السيناريو.

تُظهر النتائج أن معايير الجودة يجب أن تتجاوز مجرد الدقة، بل لابد أن تأخذ بعين الاعتبار قابلية القراءة وسهولة التعديل. ولذلك، تم تطوير تصنيف تقييم يشمل ثلاث أبعاد: الدقة (Accuracy)، والصيغة (Formula)، والشكل (Format) - وكل بُعد يحتوي على معايير دقيقة تعكس المعايير المهنية.

تصدرت عائلة Claude في هذه المقاييس، حيث أنتجت أكثر النتائج احترافية في مراجعتنا النوعية. ومع ذلك، حتى أكثر الوكالات تقدمًا غالبًا ما تفشل في تلبية معايير المالية الاحترافية، وتفشل بشكل حاد عند زيادة التعقيد إلى ما هو أبعد من عدد قليل من العمليات الحسابية المتسلسلة. هذا يشير إلى أن الوكالات الحالية لا تزال غير قادرة على إنتاج جداول بيانات بجودة احترافية بالمستوى المطلوب في الأعمال الواقعية.