في ظل الثورة الرقمية التي نعيشها، أصبحت علوم البيانات تلعب دوراً محورياً في اكتشاف رؤى قابلة للتنفيذ من كميات ضخمة وعشوائية من البيانات. ولكن، يواجه محللو البيانات تحديات كبيرة في أتمتة هذه العمليات، وهو الأمر الذي يسهم في جعل التطبيقات المعتمدة على البيانات قابلة للتوسع. لذا، قد ظهرت وكلاء البيانات المستندين إلى نماذج اللغة الكبيرة (LLM) كحل واعد لأتمتة سير العمل في علوم البيانات.
ومع ذلك، يعاني هذا الميدان من نقص في المعايير الشاملة التي تمكن من تقييم دقيق لهؤلاء الوكلاء عبر سيناريوهات متنوعة. لذلك، تم اقتراح AgenticDataBench، وهو مرجع شامل يتضمن مهام واقعية تتوزع عبر مجالات مختلفة مع تسميات حقيقية دقيقة.
يهدف AgenticDataBench إلى معالجة الفجوة الحالية في تقييم وكالات البيانات من خلال عدة خطوات مهمة، أولها جمع مجموعات بيانات حقيقية ومهام من 15 مجالاً عمودياً، بما في ذلك 5 حالات استخدام حقيقية من شركة FinTech رائدة.
بالإضافة إلى ذلك، تم اقتراح مهارات علوم البيانات وأنماط تشغيل مركزية متكررة، مما يضمن إنشاء مهام عالية الجودة للمجالات التي تفتقر إلى بيانات حقيقية.
أما النقطة الأهم، فهي تقييم فعالية وكلاء البيانات باستخدام هذا المرجع المصنف، مما يقدم رؤى متعمقة حول مهاراتهم وقدراتهم. يأتي هذا الابتكار ليكون أداة حيوية لدفع حدود علوم البيانات قدماً، وفتح آفاق جديدة للمحللين وصناع القرار في هذا المجال.