تعتبر نظم Retrieval-Augmented Generation (RAG) جزءًا أساسيًا من التطورات الحديثة في الذكاء الاصطناعي، حيث تعتمد بشكل كبير على جودة معالجة الوثائق المسبقة. ومع ذلك، لم يتم تقييم أطر عمل معالجة PDF السابقة من حيث تأثيرها على دقة الإجابات الناتجة. في هذه الدراسة، نقوم بتغطية هذا الفجوة من خلال مقارنة منهجية لأربعة أطر مفتوحة المصدر لتحويل PDF إلى Markdown، وهي Docling وMinerU وMarker وDeepSeek OCR.

أجرينا تقييمات على 21 تكوينًا مختلفًا، حيث تم تغيير أداة التحويل واستراتيجيات التنظيف وتقنيات تقسيم الوثائق وإثراء البيانات الوصفية. تم الاعتماد على 50 سؤالًا كمرجع وتم تطبيق الاختبارات باستخدام مجموعة من 36 وثيقة إدارية برتغالية تحتوي على 1706 صفحات و492 ألف كلمة تقريبًا. استخدمنا نموذج لغوي كبير ليكون الحكم، وقمنا بإجراء أكثر من 50 تجربة مستقلة لكل تكوين، مع تقييم الدلالة الإحصائية باستخدام اختبارات Wilcoxon وقياسات تأثير Cohen.

حددت النتائج معلومتين كحدود للأداء: أداة PDFLoader البدائية (86.2%) وMarkdown المراجع يدويًا (91.3%). تمكنت Docling مع تقنية تقسيم هرمي ووصف الصور من تحقيق أعلى دقة تلقائية (94.1 +/- 1.6%)، متجاوزة حتى التنسيق اليدوي. وكشفت التحليلات حسب نوع السؤال أن الأسئلة المعتمدة على الجداول هي التي تقود أكبر الفروقات في الدقة، حيث كان هناك فجوة تبلغ 33 نقطة مئوية بين التقسيم الأساسي والهرمي. ويبدو أن إثراء البيانات الوصفية وتقنيات تقسيم البيانات الشديدة الوعي بالهيكل تعود بفائدة أكبر على الدقة مقارنةً بإطار التحويل نفسه. شُوهدت نتائج متدنية مع تطبيق GraphRAG التجريبي، الذي أظهر أداءً أدنى من RAG الأساسي (82% مقابل 94.1%).

تظهر هذه النتائج أن جودة تحضير البيانات تمثل العامل الحاسم في أداء نظم RAG، مما يفتح آفاقًا جديدة لتحسين دقة النظم الذكية عبر استراتيجيات معالجة الوثائق.