في عالم [صناعة](/tag/صناعة) الوثائق الطويلة والمعقدة، تبدو عملية استرجاع [المعلومات](/tag/المعلومات) وكأنها [تحدي](/tag/تحدي) حقيقي. تعتمد [أساليب](/tag/أساليب) الاسترجاع المتقدمة مثل "[توليد](/tag/توليد) معزز بالاسترجاع" ([Retrieval-Augmented Generation](/tag/retrieval-augmented-generation) - [RAG](/tag/rag)) بشكل كبير على كيفية تحديد حدود الأقسام في المستندات. ومع ذلك، تعاني الطرق التقليدية من عجزها عن التقاط [العلاقات](/tag/العلاقات) الأبوية بين الصفحات، والاقترانات بين [الجداول](/tag/الجداول) والتعليقات التوضيحية، مما يؤدي إلى تشظي [البيانات](/tag/البيانات) أو تكرارها.
هنا يأتي دور [الابتكار](/tag/الابتكار) الجديد: M3DocDep. تقدم هذه [التقنية](/tag/التقنية) مسارًا متكاملًا يعتمد على [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) والرؤية الواسعة (Large [Vision-Language Models](/tag/vision-language-models) - LVLM) للقيام بدور أكبر من مجرد تقسيم النص. تقوم M3DocDep أولاً باستخراج الاعتمادات على مستوى الكتل قبل إجراء عملية التقسيم. يستخدم هذا النظام "SharedDet" كطبقة معالجة مسبقة مشتركة، ويستخرج [تمثيلات](/tag/تمثيلات) كتلية [متعددة الوسائط](/tag/متعددة-الوسائط) من خلال تجميع "SoftROI" المدرك للحدود.
علاوةً على ذلك، يتم [تقييم](/tag/تقييم) [العلاقات](/tag/العلاقات) بين العقد الأبوية والفرعية باستخدام رأس بايافين (Biaffine Head) ولتأكيد [صحة](/tag/صحة) الشجرة الناتجة، يتم تطبيق [قيود](/tag/قيود) MST (Minimum Spanning Tree). النتائج مذهلة! مقارنة ببروتوكول [تقييم](/tag/تقييم) الكتل المشتركة، يُظهر M3DocDep [تحسينات](/tag/تحسينات) كبيرة في مؤشرات STEDS تتراوح من +28.5 إلى +39.6 في المئة على [معايير](/tag/معايير) DHP، وزيادة تتراوح من +1.1 إلى +15.3 في المئة في استرجاع nDCG، وتحسن في [QA](/tag/qa) ANLS تبلغ قيمته +4.5 إلى +15.3 في المئة على [معايير](/tag/معايير) [RAG](/tag/rag) على مستوى [المجموعات](/tag/المجموعات).
هذه النتائج تسلط الضوء على أهمية استرجاع الاعتمادات الوثائقية قبل تقسيم البيانات، مما يؤدي إلى [تحسين](/tag/تحسين) جودة وكفاءة وحدات الاسترجاع في الوثائق المتعددة الصفحات [متعددة الوسائط](/tag/متعددة-الوسائط).
ثورة في معالجة الوثائق: M3DocDep يجمع بين الذكاء الاصطناعي والمستندات المتعددة!
تقدم M3DocDep تقنية مبتكرة تعتمد على نماذج الرؤية واللغة الواسعة لتحسين معالجة الوثائق متعددة الصفحات. تزيد هذه التقنية من فعالية استرجاع المعلومات وجودة الإجابات بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
