في عالم اليوم الذي يعتمد بشكل متزايد على البيانات، تلعب جداول البيانات (Spreadsheets) دورًا حيويًا في تحليل الأعمال ونمذجة المالية وصنع القرارات. ومع ذلك، تعاني العديد من الأدوات الموجودة من قيود في تقييم الأداء بسبب تركيزها على العمليات المعزولة مثل توليد وظائف فردية أو تعديلات في خلايا معينة. هنا يأتي دور "SpreadsheetBench 2"، وهو معيار جديد ومستوى متقدم يهدف إلى تقييم الوكالات في التعامل مع جداول البيانات عبر عمليات متكاملة.
تنقسم المهام في "SpreadsheetBench 2" إلى ثلاث فئات رئيسية: التوليد (Generation)، وتصحيح الأخطاء (Debugging)، والتصور (Visualization). تم بناء المعيار باستخدام بيانات أعمال حقيقية تشمل التقارير المالية والتسجيلات المؤسسية، وهو ما يجعله أقرب إلى الواقع العملي.
يتضمن المعيار 321 مهمة، بمعدل 11.8 ورقة عمل لكل مهمة، مما يعني أن المستخدمين بحاجة لإجراء 593.5 تعديلًا على الخلايا في المتوسط لتعكس عمل الجداول المعقدة التي تحتوي على تداخلات بين الأوراق. تم تقييم ثمانية نماذج اللغات الضخمة (Large Language Models) ضمن إطار عمل موحد لعمليات متعددة، كما تم إضافة عدة منتجات قائمة على نماذج اللغات كمرجع مكمل.
لقد كشفت النتائج أن الأنظمة الحالية ما زالت بعيدة عن تحقيق الاعتمادية في سياقات العمل الواقعية؛ إذ أن أفضل نموذج حقق 34.89% فقط من الدقة الشاملة للمهام، ودقة تصحيح الأخطاء كانت منخفضة جدًا تصل إلى 12.00%. تشير تحليل المسارات وتصنيف الأخطاء إلى أن الفحص غير الكافي للجداول الاختبارية واختيار الخلايا المستهدفة بشكل غير صحيح هما العقبتين الرئيسيتين التي تعيق الأداء.
يمكن القول إن "SpreadsheetBench 2" يمثل اختبارًا قويًا يساعد في دفع حدود أتمتة جداول البيانات القابلة للاعتماد. لتحسين أداء الوكالات في هذا المجال، يصبح الفوز في هذا الاختبار تحديًا مهماً.
هل تعتقد أن "SpreadsheetBench 2" ستكون خطوة حقيقية نحو تحسين أدوات الجداول الخاصة بالأعمال؟ شاركنا برأيك في التعليقات!
ثورة جديدة في أدوات الجداول: كيف تقيم "SpreadsheetBench 2" فهم الوكالات لعمليات الأعمال المعقدة؟
تقديم "SpreadsheetBench 2"، معيار مبتكر يقيم أداء الوكالات في التعامل مع جداول البيانات بشكل متكامل. يمكّن هذا المعيار من تحليل مهام تجريبية جديدة تشمل التوليد وتصحيح الأخطاء والتصور مع بيانات أعمال حقيقية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
