في عالم الذكاء الاصطناعي، تعتبر تقنية الاسترجاع المعززة بالتوليد (RAG) واحدة من الابتكارات المهمة، حيث يتم استخدامها لتحسين جودة الاسترجاع من مصادر بيانات متنوعة. وتهدف هذه التقنية إلى تعزيز آليات بحث البيانات من خلال استخدام طرق مثل توسيع الاستعلام، والتلخيص الهرمي بين الوثائق، وتوسيع الشبكات، وغيرها.

فقد أظهرت العديد من الدراسات أن هذه الطرق تعتبر فعالة بشكل رئيسي في مجموعات البيانات المتجانسة، مثل نصوص ويكيبيديا. ولكن السؤال الذي يطرح نفسه هو: هل ستستمر هذه الفعالية في البيانات المختلطة التي تحتوي على مجموعة متنوعة من التنسيقات مثل الأكواد، والـ markdown، والجداول، والمستندات العلمية؟

للإجابة عن هذا السؤال، قام الباحثون ببناء معيار جديد يُدعى extbf{HetDocQA}، والذي يقدم تصنيفات ملائمة غير معتمدة على أجزاء محددة، مع تقسيمات غير متداخلة للمجموعات. وقد تم تقييم ثمانية طرق على نموذج أساسي مشترك، مما أتاح الحصول على فترات ثقة واضحة في النتائج.

تُظهر النتائج أن معيد الترتيب القوي المستخدم في الاختبارات يعد نقطة القوة الأساسية للسلسلة، ومن حيث الفوائد، لم يحقق سوى طريقتين نتائج موثوقة: توسيع الاستعلام وSSCC، وهو مصحح تم تقديمه هنا يعدل العتبة الخاصة لكل مصدر. بينما لم تُظهر الطرق الأخرى المستخدمة لتحسين إعادة الترتيب مثل التلخيص الهرمي، وتوسيع الشبكات، أي فوائد ملحوظة مع وجود المعيد القوي.

تمثل هذه الاكتشافات خطوة مهمة في فهم كيفية عمل تقنيات تحسين الاسترجاع في البيئات المتنوعة، مما يفتح آفاق جديدة لتحسين الأداء في التطبيقات العملية. فكيف ستؤثر هذه النتائج على مستقبل تطوير نماذج الذكاء الاصطناعي؟