في عالم الذكاء الاصطناعي، يتطلب التعامل مع الوثائق الطويلة متعددة الوسائط قدرة فائقة على استرجاع الأدلة المتنوعة. ومع زيادة استخدام ملفات PDF المعقدة، يصبح من الضروري تطوير أنظمة قادرة على دمج المعلومات من النصوص، الجداول، الصور، والمخططات بشكل فعال.
تقدم الدراسة الجديدة نموذج MAGE-RAG، وهو إطار عمل مبتكر يستند إلى دليل بياني متعدد الغرانولات (Multigranular Adaptive Graph Evidence)، مصمم خصيصاً ليكون الأمثل في مجال الإجابة على الأسئلة (QA) عبر الوثائق الطويلة. يستخدم هذا النموذج retrieval من الصفحات كنقطة انطلاق للبناء على الأدلة في الوقت الحقيقي.
بفضل عملية بناء الرسم البياني للأدلة التي تتضمن نقاط الصفحات والعناصر، يعمل MAGE-RAG على ترميز العلاقات المعقدة مثل ترتيب القراءة، قرب التصميم، والتسلسل الهرمي للأقسام. عن طريق التحكم الذكي في الأدلة في الوقت الفعلي، يوفر النموذج مدخلات مضغوطة وشاملة، مما يضمن استخداماً فعالاً للسياق.
تشير التجارب التي أجريت على مجموعتي البيانات LongDocURL و MMLongBench-Doc إلى أن MAGE-RAG حقق نسبة دقة عامة بلغت 52.75%، مع نتائج أعلى عند 53.26% على مجموعة MMLongBench-Doc. هذه النتائج تعكس القدرة على موازنة تغطية الأدلة والتقليل من الضوضاء وكفاءة الاستدلال، مما يجعله نموذجاً مبتكراً في هذا السياق.
للاطلاع على الكود والموارد المتاحة للتجربة، يمكن زيارة الرابط التالي: رابط الكود.
ما رأيكم في هذا التطور المثير في نموذج MAGE-RAG؟ شاركونا أفكاركم في التعليقات!
نموذج MAGE-RAG: ثورة في الإجابة على الأسئلة متعددة الوسائط في الوثائق الطويلة!
تقديم نموذج MAGE-RAG الجديد الذي يعيد تعريف طريقة الإجابة عن الأسئلة في الوثائق الطويلة عبر دمج الأدلة المتعددة الوسائط. تجربة جديدة تقدم دقة عالية وتوازن مثالي بين المعلومات والضوضاء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
