تُعد عملية استخراج الجداول من مستندات PDF أمرًا حيويًا في مجالات التنقيب عن البيانات العلمية وبناء قواعد المعرفة، لكن الأساليب التقليدية لتحقيق ذلك تعتمد على مقاييس قائمة على القواعد التي لا تعكس بشكل دقيق المعاني الدلالية لمحتوى الجداول.

في هذا الإطار، قام الباحثون بتقديم إطار تقييم جديد يستند إلى مستندات PDF مُولّدة صناعيًا مع حقائق دقيقة مستندة إلى LaTeX، حيث شملت الجداول المستخدمة تلك المأخوذة من arXiv لضمان تعقيد وتنوع واقعي.

الجانب المركزي في هذه الدراسة هو استخدام نماذج اللغات الكبيرة (Large Language Models) كحكم للتقييم الدلالي للجداول، حيث تم دمج هذه التقنية في سلسلة مطابقة تأخذ بعين الاعتبار التناقضات في نتائج المعالجين. من خلال دراسة تقييم بشري شاملة لأكثر من 1500 حكم على جودة أزواج الجداول المستخرجة، توصل الباحثون إلى أن التقييم القائم على نماذج اللغات الكبيرة يحقق ارتباطًا أعلى بكثير مع حكم البشر (معامل بيرسون r=0.93) مقارنةً بالأساليب الحالية مثل Tree Edit Distance-based Similarity (TEDS، r=0.68) وGrid Table Similarity (GriTS، r=0.70).

كما تم تقييم 21 معالج PDF معاصر عبر 100 مستند صناعي يحتوي على 451 جدولًا، وكُشفت الفروق الكبيرة في الأداء. تقدم النتائج إرشادات عملية لاختيار المعالجات المناسبة لاستخراج البيانات الجدولية، وتؤسس منهجية تقييم قابلة للتكرار وقابلة للتوسع لهذه المهمة الحيوية.

يمكن الاطلاع على الكود والبيانات التي استخدمت في هذا البحث عبر الروابط المتاحة.