في عالم البيانات الضخمة، يتزايد الاعتماد على تقنية استخراج الجداول من الوثائق التجارية، والتي تتطلب نظاماً متسلسلاً يتضمن كشف الجداول (Table Detection - TD) واستعادة الهيكل الداخلي لها (Table Structure Recognition - TSR). هذه الكفاءة تتطلب مجموعات تدريبية دقيقة، مما يجعل عملية التجميع مكلفة وصعبة.
إليك الخبر السار: تم تقديم مفهوم التعلم النشط (Active Learning - AL) كحل لتخفيف العبء المتعلق بالتصنيفات التفصيلية، لكنه يعتبر تقليدياً مصمماً لمهام النماذج الفردية دون احتساب التبعيات بين المراحل في الأنظمة المتسلسلة.
أحدث هذا البحث ابتكاراً فريداً من نوعه عن طريق تطبيق طريقة Herding الخاصة بعدم اليقين (Uncertainty Herding - UHerding) على أنظمة كشف الكائنات المتسلسلة، مما توفر تحسينات في دقة الكشف والتعرف على الجداول. توفّر بعض التوسعات الجديدة وطرق العينة الهجينة تغطية ثنائية المنحنى عبر مساحات الكشف والهيكل، بالإضافة إلى نموذج CAPA الذي يُعزز الدقة اعتماداً على كل مرحلة.
كشفت التجارب الواسعة التي أجريت عبر مجموعتين عامة (PubTables-1M و FinTabNet) واثنتين خاصتين لاستخراج الجداول، تفوق نموذج UHerding على كل القواعد الأساسية. وقد كشف هذا البحث أيضاً أن النموذج RankFusion يقدم مكاسب أعلى لكنه يتطلب مزيداً من المخاطر، بينما يظهر CAPA كأفضل استراتيجية من حيث الاستقرار والكفاءة.
كيف ترى أهمية التعلم النشط في تحسين أنظمة استخراج الجداول؟ نود أن نسمع آرائك!
تعلم نشط لتحسين كشف الكائنات: التوازن بين التغطية وعدم اليقين في أنظمة استخراج الجداول
تم تقديم استراتيجية تعلم نشط جديدة لتحسين كفاءة أنظمة استخراج الجداول من الوثائق التجارية. تعتمد هذه الاستراتيجية على أساليب حديثة للتوازن بين التغطية وعدم اليقين، مما يؤدي إلى نتائج أفضل في الاستخراج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
