في ظل تزايد كمية المعلومات التشغيلية والتحليلية المحصورة داخل الرسوم والجداول بالمؤسسات، أصبح استخراج هذه المعلومات بشكل فعّال ضرورة ملحّة. يُعدّ التعامل مع هذه المحتويات كأساليب تحليلية ذات مغزى خطوة مهمة لفهم البيانات الدقيقة بشكل أفضل.
في هذا البحث، تم تقديم مجموعة بيانات جديدة وأطر تقييم تهدف إلى تصنيف وتحديد المحتوى المرئي ذي المعنى من المستندات المؤسسية. تشمل المجموعة تقارير إنسانية، وأوراق بحثية من البنك الدولي، ومستندات تقييم المشاريع، وتم تزويدها بشروحات للرسوم والجداول التي تحتوي على معلومات تحليلية قابلة لإعادة الاستخدام.
تحتوي الدراسة على تحليل شامل لعدة نماذج كشف تخطيطات مفتوحة المصدر، حيث تم تقييم أداء كل منها من حيث دقة الكشف وجودة الاستخراج المكاني. أظهرت النتائج أن النماذج الحالية تواجه صعوبة في التعميم على المستندات المؤسسية التشغيلية، على الرغم من أدائها القوي في الم benchmarks الأكاديمية التقليدية.
تشمل المشكلات الشائعة التي تم تحديدها الخلط بين المحتوى التحليلي وغير التحليلي، وتجزئة الكيانات التحليلية المعقدة، وعدم الاكتمال في استخراج المعلومات السياقية اللازمة للتفسير.
تُبرز هذه النتائج الفجوة المستمرة بين تحليل تخطيط الوثائق العام والاستخراج المفيد للبيانات. كما تم إصدار ملفات PDF الأصلية ومجموعة بيانات التعليقات التوضيحية وبيانات التعريف وكود المصدر لدعم الأبحاث المستقبلية في ذكاء المستندات التشغيلية.
يمكنكم تحميل المجموعة والمصادر من هنا و هنا لمن يرغب في المزيد من الاستكشاف والتجربة.
منافسة مثيرة: نماذج الكشف عن تخطيطات المستندات المفتوحة المصدر في استخراج البيانات التحليلية!
تم تقديم مجموعة بيانات جديدة لإجراء تقييمات حول استخراج البيانات ذات المعنى من المستندات المؤسسية، مركزاً على الرسوم البيانية والجداول. تكشف النتائج عن تحديات جديرة بالاهتمام في أداء النماذج الحالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
