في عالم [صناعة](/tag/صناعة) الوثائق الطويلة والمعقدة، تبدو عملية استرجاع [المعلومات](/tag/المعلومات) وكأنها [تحدي](/tag/تحدي) حقيقي. تعتمد [أساليب](/tag/أساليب) الاسترجاع المتقدمة مثل "[توليد](/tag/توليد) معزز بالاسترجاع" ([Retrieval-Augmented Generation](/tag/retrieval-augmented-generation) - [RAG](/tag/rag)) بشكل كبير على كيفية تحديد حدود الأقسام في المستندات. ومع ذلك، تعاني الطرق التقليدية من عجزها عن التقاط [العلاقات](/tag/العلاقات) الأبوية بين الصفحات، والاقترانات بين [الجداول](/tag/الجداول) والتعليقات التوضيحية، مما يؤدي إلى تشظي [البيانات](/tag/البيانات) أو تكرارها.

هنا يأتي دور [الابتكار](/tag/الابتكار) الجديد: M3DocDep. تقدم هذه [التقنية](/tag/التقنية) مسارًا متكاملًا يعتمد على [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) والرؤية الواسعة (Large [Vision-Language Models](/tag/vision-language-models) - LVLM) للقيام بدور أكبر من مجرد تقسيم النص. تقوم M3DocDep أولاً باستخراج الاعتمادات على مستوى الكتل قبل إجراء عملية التقسيم. يستخدم هذا النظام "SharedDet" كطبقة معالجة مسبقة مشتركة، ويستخرج [تمثيلات](/tag/تمثيلات) كتلية [متعددة الوسائط](/tag/متعددة-الوسائط) من خلال تجميع "SoftROI" المدرك للحدود.

علاوةً على ذلك، يتم [تقييم](/tag/تقييم) [العلاقات](/tag/العلاقات) بين العقد الأبوية والفرعية باستخدام رأس بايافين (Biaffine Head) ولتأكيد [صحة](/tag/صحة) الشجرة الناتجة، يتم تطبيق [قيود](/tag/قيود) MST (Minimum Spanning Tree). النتائج مذهلة! مقارنة ببروتوكول [تقييم](/tag/تقييم) الكتل المشتركة، يُظهر M3DocDep [تحسينات](/tag/تحسينات) كبيرة في مؤشرات STEDS تتراوح من +28.5 إلى +39.6 في المئة على [معايير](/tag/معايير) DHP، وزيادة تتراوح من +1.1 إلى +15.3 في المئة في استرجاع nDCG، وتحسن في [QA](/tag/qa) ANLS تبلغ قيمته +4.5 إلى +15.3 في المئة على [معايير](/tag/معايير) [RAG](/tag/rag) على مستوى [المجموعات](/tag/المجموعات).

هذه النتائج تسلط الضوء على أهمية استرجاع الاعتمادات الوثائقية قبل تقسيم البيانات، مما يؤدي إلى [تحسين](/tag/تحسين) جودة وكفاءة وحدات الاسترجاع في الوثائق المتعددة الصفحات [متعددة الوسائط](/tag/متعددة-الوسائط).