في عصر تتنافس فيه التقنيات الحديثة لتوفير حلول أسرع وأكثر دقة، يأتي مشروع DocVAL ليقدم لنا إطار عمل متطور في مجال الإجابة عن الأسئلة البصرية الموجهة للمستندات. تعد الإجابة عن الأسئلة البصرية من التحديات الكبيرة في عالم الذكاء الاصطناعي، حيث تتطلب النماذج ليس فقط تقديم إجابات صحيحة، بل أيضًا تحديد موقع الإجابات بدقة داخل تخطيطات المستندات المعقدة. قد نجحت النماذج الكبيرة للرؤية واللغة (Vision-Language Models) في تحقيق دقة عالية، ولكن تكلفة الاستدلال والزمن اللازم لها يمثلان قيودًا على نشرها في العالم الحقيقي.

هنا يأتي دور DocVAL، الذي يعمل على ملء هذه الفجوة من خلال استخدام إطار عمل لتحليل سلسلة الأفكار (Chain-of-Thought) الذي ينقل الفهم المكاني من النماذج التعليمية الكبيرة إلى نماذج الطلاب القابلة للنشر. يعتمد DocVAL على ثلاثة مكونات رئيسية:
1. إشراف قائم على التفكير المكاني الذي تولده نماذج المعلم.
2. مُحقق مزدوج يعتمد على القواعد يقوم بتصفية إشارات التدريب ذات الجودة المنخفضة ويقدم ملاحظات دقيقة على مستوى البيكسل.
3. إجراء تدريب مزدوج المرحلة مدفوع بالتحقق يسمح بتنقيح مستمر.

تستند عملية الكشف عن النصوص إلى توجيه عمليات التدريب فقط، مما يمكّن الطالب النهائي من العمل كنموذج الرؤية واللغة الخالص دون الحاجة إلى استخدام التعرف على النصوص أو الكشف أثناء الاستدلال.

بينما تظهر نتائج DocVAL تفوقًا ثابتًا يصل إلى 6-7 نقاط في ANLS مقارنة بالنماذج المدمجة المماثلة، يتم تقديم متوسط الدقة المئوية (mean Average Precision) كمقياس جديد لتقييم مواقع الأسئلة البصرية المتعلقة بالمستندات. ويشير الأداء القوي للدقة المكانية الناتج عن هذا التقييم إلى الفعالية العالية لعملية الإشراف الموثوق بها.

مع إصدار 95,000 تتبع موثوق، يعكس DocVAL كيف يمكن أن تكون الإشرافات ذات الجودة العالية أكثر فعالية من البيانات غير المفلترة، مما يسهل عملية توصيل المعلومات داخل المستندات بشكل موثوق.