تُعتبر عملية استخراج المعلومات المهيكلة من مستندات PDF الأكاديمية أمرًا بالغ التعقيد، حيث تجمع صفحة واحدة عادة بين نصوص حرة ومناطق جدولة، مما يجعلها عرضة لمتغيرات متعددة مثل ترميزات Unicode. في دراسة جديدة، تم تقييم موثوقية استراتيجيات استخراج المعلومات من مستندات PDF الجدولية باستخدام مستندات تسجيل المقررات الدراسية من التعليم العالي الإندونيسي كمثال.
تمت مقارنة ثلاث استراتيجيات مختلفة: استخدام نموذج لغوي فقط (LLM)، واستراتيجية هجينة تجمع بين الأساليب الحتمية والنموذج اللغوي، بالإضافة إلى استخدام خط أنابيب يعتمد على Camelot مع نموذج لغوي كنسخة احتياطية. تم إجراء التجارب على 140 مستندًا للاختبار القائم على نموذج لغوي و860 مستندًا لتقييم خط الأنابيب القائم على Camelot، تغطي أربعة برامج دراسية مع بيانات متغيرة في الجداول والبيانات الوصفية.
تم تشغيل ثلاثة نماذج لغوية بحجم 12 - 14 مليار (Gemma 3، Phi 4، وQwen 2.5) محليًا باستخدام Ollama وCPU من فئة المستهلك دون الحاجة إلى GPU. استخدمت التقييمات معايير تطابق دقيق (EM) وتوافق Levenshtein (LS) مع حد أدنى قدره 0.7. بالرغم من أن هذا لا ينطبق على جميع النماذج، إلا أن النتائج أظهرت أن النهج الهجين يمكن أن يحسن الكفاءة مقارنة باستخدام نموذج لغوي فقط، خاصةً للبيانات الوصفية الحتمية.
أما خط الأنابيب القائم على Camelot مع استخدام نموذج لغوي كنسخة احتياطية، فقد أنتج أفضل مزيج من الدقة (EM وLS تصل إلى 0.99 - 1.00) وكفاءة حاسوبية (أقل من ثانية واحدة لكل PDF في معظم الحالات). وقد أظهر نموذج Qwen 2.5:14b أداءً متسقًا عبر جميع السيناريوهات. تؤكد هذه النتائج أن دمج الأساليب الحتمية والنماذج اللغوية هو استراتيجية موثوقة وفعالة لاستخراج المعلومات من مستندات الـPDF المهيكلة في بيئات تكنولوجية محدودة.
ثورة استخراج المعلومات من PDFs: أدوات الذكاء الاصطناعي ترفع السقف!
تقييم جديد يُظهِر كفاءة استراتيجيات استخراج المعلومات من مستندات PDF الأكاديمية باستخدام نموذج لغوي محلي. المواجهة بين النماذج التقليدية وتقنيات الذكاء الاصطناعي تكشف عن نتائج مثيرة للإعجاب!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
