في عالم تتزايد فيه الحاجة إلى معالجة الوثائق بشكل ذكي، قدم البحث الجديد نموذج مينيرو-بوبو (MinerU-Popo) كإطار عمل مبتكر لتحسين نتائج *OCR* (التعرف على الأحرف البصرية) القائمة على نماذج اللغة المرئية (VLM). هذه النماذج أصبحت الخيار الأساسي في تحليل الوثائق، ولكنها كانت تعاني من مشكلة التواصل بين صفحات الوثيقة. تأتي أهمية هذا النموذج من قدرته على تجميع البيانات المعقدة عبر عدة صفحات واستعادة الهياكل المقطوعة مثل الفقرات والجداول بدقة.

تتمثل رؤية النموذج في استغلال النتائج المتاحة من عمليات *OCR* لبناء هياكل منطقية متماسة لمستوى الوثيقة. وقد تم تقسيم المشكلة إلى أربع مهام فرعية رئيسية:
1. **استعادة الفقرات المقطوعة**: ضمان أن كل فقرة محفوظة بشكل كامل.
2. **استعادة الجداول المقطوعة**: إعادة بناء الجداول بشكل متكامل.
3. **إعادة بناء تسلسل العناوين**: الحفاظ على تسلسل واضح للعناوين الفرعية.
4. **ربط النصوص بالصور**: ضمان التكامل بين النصوص والصور المرتبطة بها.

وتم استخدام قاعدة بيانات مخصصة تحتوي على 30,000 قطعة بيانات لتحسين نموذج معالجة ما بعد الإنتاج الخفيف الوزن (Qwen3-VL-4B). بالإضافة إلى ذلك، تم تقديم تقنية تقسيم ديناميكية لتحسين التنسيق بين المخرجات والمحافظة على الاتساق العام.

تظهر النتائج التجريبية أن نموذج مينيرو-بوبو يُحسن دقة تسلسل العناوين (TEDS) بنسبة تزيد عن 20% لجميع النماذج الخمسة المُختبرة. كما يُعزز دقة عمليات استرجاع المعلومات (RAG) ويقلل من الزمن المستغرق لكل استعلام.

إن نموذج مينيرو-بوبو ليس مجرد تقنية جديدة فحسب، بل يمثل خطوة ثورية نحو تحسين معالجة الوثائق والمعلومات، مما يجعله إضافة قيمة في مجال الذكاء الاصطناعي.