أصبحت تقنيات استرجاع البيانات متعددة النماذج (Multimodal Retrieval-Augmented Generation - RAG) واحدة من أكثر الأطر شعبية لتعزيز نماذج اللغة الكبيرة (Large Language Models - LLMs) بواسطة معرفة خارجية. ومع ذلك، كانت معظم أنظمة RAG الحالية تعتمد بشكل أساسي على استرجاع البيانات على مستوى الصفحات، مما أدى إلى عدم استيعاب الهياكل الدلالية والتخطيطية الدقيقة داخل المستندات الغنية بصرياً. هذا القصور أضعف دقة الاسترجاع وأدى إلى محتوى متكرر في المهام اللاحقة.
للتغلب على هذه التحديات، تم تقديم إطار العمل الجديد "LFRAG"، الذي يُحسن عملية RAG من الاسترجاع على مستوى الصفحات إلى استرجاع على مستوى الكتل. من خلال إجراء تقسيم تخطيطي، تم تصميم وحدات استرجاع دقيقة متماسكة دلالياً. وقد تم إنشاء مشفر Fusion Semantic-Layout الذي يدمج الدلالات المحلية مع السياق العالمي عبر اهتمام متقابل (Cross-Attention).
أحد المزايا الرئيسية لـ LFRAG هو استرجاع التفاعل المتأخر على مستوى الكتل، مما يمكّن من تحقيق توافق دقيق بين الاستعلامات والمحتوى، مما يقلل من المحتوى غير ذي الصلة في المهام اللاحقة. ولتقييم أداء هذه التكنولوجيا بدقة، تم إنشاء مجموعة بيانات جديدة تُسمى LFDocQA، التي تحتوي على تعليقات توضيحية على مستوى الكتل عبر أنواع مستندات متنوعة، مما يوفر آلية أكثر دقة لتقييم استرجاع المستندات متعددة النماذج وإجابات الأسئلة.
أظهرت التجارب الواسعة على مجموعة LFDocQA أن LFRAG تُحقق أداءً متقدماً في مهام الاسترجاع، حيث تجاوزت أفضل خط أساسي بنسبة 7.20% في دقة الإجابات، كما خفضت استهلاك الرموز بنسبة 73.07% في مهام التوليد، مما يؤكد فعالية ودقة هذا الإطار في معالجة مستندات متعددة النماذج الغنية بصريًا. نترقب صدور الكود والبيانات المرتبطة قريبًا.
ثورة في الذكاء الاصطناعي: LFRAG تُعيد تعريف استرجاع البيانات متعددة النماذج!
تم الكشف عن إطار عمل جديد يُدعى LFRAG، الذي يتيح استرجاعاً دقيقاً للمعلومات من مستندات متعددة النماذج، مما يحسن دقة نماذج اللغة الكبيرة. تعرفوا على كيفية تجاوز هذه التقنية للمشاكل التقليدية في نظم RAG الحالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
