في عالم يتزايد فيه الاعتماد على المعلومات الوثائقية، أصبح فهم الوثائق (Document Understanding) يمثل أمرًا بالغ الأهمية، خاصةً عند التعامل مع الصور الوثائقية الأكثر كثافة بالمعلومات. يهدف هذا المجال إلى تمكين استجابات دقيقة للأسئلة واستخراج المعلومات من الصور، حيث يعتمد معظم عمليات الاستفسار على بعض المناطق التصميمية ذات الصلة. ولكن، ماذا لو أخبرتك أن الأساليب الحالية قد تكون غير كافية لمواجهة تحديات هذا النوع من العمل؟
!نموذج مفهوم Doc-CoB
العديد من الطرق الحالية تعتمد استراتيجيات ذات مرور واحد، تفترض عن طريق الخطأ أن جميع التصميمات متساوية الأهمية، أو تفرط في التركيز على مناطق صغيرة، مما يؤدي إلى فقدان معلومات تصميمية حيوية.
لتجاوز هذه القيود، نقدم لكم إطار عمل Doc-CoB (Chain-of-Boxes)، وهو إطار بسيط ولكنه فعال. يعتمد Doc-CoB على دمج التفكير البصري المدرك للتصميم في نماذج اللغة متعددة الوسائط (Multimodal Large Language Models). بدلاً من التكبير مباشرة إلى المناطق الصغيرة، يقوم Doc-CoB بالتدريج بالتركيز على التصميمات ذات الصلة بالاستفسار، مع الحفاظ على المعلومات العامة للوثيقة.
كيف يعمل هذا الإطار؟
في البداية، يتم اختيار صناديق التصميم الرئيسية، ثم يتم التركيز عليها لفهم أعمق باستخدام التوجيه البصري. لدعم هذا النموذج، تم تقديم مهام استدلال جديدة تشمل تعرف الصندوق (Box Recognition) واستدلال الصندوق (Box Reasoning)، مع وجود آلية تلقائية تبني 249000 عينة تدريبية تحت إشراف بصري متوسط.
أظهرت التجارب واسعة النطاق على سبعة معايير وبأربعة نماذج شهيرة أن Doc-CoB يحسن الأداء بشكل ملحوظ، مما يبرهن على فعاليته وقابليته للتطبيق على نطاق واسع.
إذا كنتم فضوليين بشأن كيفية تأثير Doc-CoB على مستقبل فهم الوثائق، فشاركوا آراءكم وتجاربكم في التعليقات أدناه!
هل سمعتم عن Doc-CoB؟ إطار مبتكر لتحسين فهم الوثائق باستخدام الذكاء البصري!
نقدم لكم Doc-CoB، إطار عمل ثوري يعزز فهم الوثائق من خلال دمج التفكير البصري في نماذج اللغة المتعددة. هذا الابتكار يعد بسطة في معالجة الصور الوثائقية بطرق فعالة وجديدة!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
