في عالم صناعة الوثائق الطويلة والمعقدة، تبدو عملية استرجاع المعلومات وكأنها تحدي حقيقي. تعتمد أساليب الاسترجاع المتقدمة مثل "توليد معزز بالاسترجاع" (Retrieval-Augmented Generation - RAG) بشكل كبير على كيفية تحديد حدود الأقسام في المستندات. ومع ذلك، تعاني الطرق التقليدية من عجزها عن التقاط العلاقات الأبوية بين الصفحات، والاقترانات بين الجداول والتعليقات التوضيحية، مما يؤدي إلى تشظي البيانات أو تكرارها.
هنا يأتي دور الابتكار الجديد: M3DocDep. تقدم هذه التقنية مسارًا متكاملًا يعتمد على نماذج اللغة والرؤية الواسعة (Large Vision-Language Models - LVLM) للقيام بدور أكبر من مجرد تقسيم النص. تقوم M3DocDep أولاً باستخراج الاعتمادات على مستوى الكتل قبل إجراء عملية التقسيم. يستخدم هذا النظام "SharedDet" كطبقة معالجة مسبقة مشتركة، ويستخرج تمثيلات كتلية متعددة الوسائط من خلال تجميع "SoftROI" المدرك للحدود.
علاوةً على ذلك، يتم تقييم العلاقات بين العقد الأبوية والفرعية باستخدام رأس بايافين (Biaffine Head) ولتأكيد صحة الشجرة الناتجة، يتم تطبيق قيود MST (Minimum Spanning Tree). النتائج مذهلة! مقارنة ببروتوكول تقييم الكتل المشتركة، يُظهر M3DocDep تحسينات كبيرة في مؤشرات STEDS تتراوح من +28.5 إلى +39.6 في المئة على معايير DHP، وزيادة تتراوح من +1.1 إلى +15.3 في المئة في استرجاع nDCG، وتحسن في QA ANLS تبلغ قيمته +4.5 إلى +15.3 في المئة على معايير RAG على مستوى المجموعات.
هذه النتائج تسلط الضوء على أهمية استرجاع الاعتمادات الوثائقية قبل تقسيم البيانات، مما يؤدي إلى تحسين جودة وكفاءة وحدات الاسترجاع في الوثائق المتعددة الصفحات متعددة الوسائط.
ثورة في معالجة الوثائق: M3DocDep يجمع بين الذكاء الاصطناعي والمستندات المتعددة!
تقدم M3DocDep تقنية مبتكرة تعتمد على نماذج الرؤية واللغة الواسعة لتحسين معالجة الوثائق متعددة الصفحات. تزيد هذه التقنية من فعالية استرجاع المعلومات وجودة الإجابات بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
