في عصر تُعتبر فيه المعلومات هي الملك، يمثل استرجاع الوثائق (Document Retrieval) المقطعة أحد العناصر الرئيسية الأساسية في أنظمة التوليد المعزز (Retrieval-Augmented Generation RAG). تشمل هذه العملية تقسيم الوثائق إلى مقاطع متداخلة، يتم تضمينها (Embedding) وفهرستها باستخدام خوارزميات بحث قريبة تقريبية مثل الرسوم البيانية القابلة للتنقل الهرمي (Hierarchical Navigable Small World Graphs HNSW).

تحتوي عملية الاسترجاع هذه على منحنيات مثيرة، إذ تضمن التداخل تحسين تغطية الحدود، لكنها أيضًا قد تقع في وضعيات فشل عملية. فعلى سبيل المثال، قد يؤدي استرجاع العناصر العلوية (Top-K) إلى استرجاع مقاطع متداخلة قريبة تتكرر فيها الأدلة، مما يُهدر الميزانية المحددة.

للتغلب على هذه المشكلة، أُقترحت تقنية جديدة تُدعى HNSW الذاتي الشرطي (Self-Conditioned Positional HNSW SCP-HNSW). تمثل هذه التقنية تعديلًا خفيفًا يضيف رمزًا موضعيًا منخفض الأبعاد إلى تضمينات المقاطع، مستخدمة إجراء استعلام مزدوج لتقدير وتطبيق أولويات المواقع المستندة إلى استعلامات محددة.

تضمن SCP-HNSW عدم تغيير بناء الرسوم البيانية HNSW أو طريقة التنقل بها، بينما تضيف محددًا يمكن تدقيقه للأخير لبناء سياقات موثوقة.

كما تم دمج عناصر مراجعة صناعية لتحسين جودة الأدلة المستخرجة، حيث تم إجراء تدقيق نصي لـ 770 مراجعة نصية، مع 318 مراجعة مرفوعة بالكامل، إضافة إلى تدقيق OCR لـ 70 حالة مع 350 تقييمًا. وقد أظهرت نتائج التدقيق النصي أن 574 من 770 مراجعة مقدّرة حصلت على درجة 3/5، فقط 39 منها تقع ضمن نطاق 1-2، في حين بدت التفاصيل السردية للمراجعين أكثر ظهورًا من العلامات القضايا المهيكلة.

تظهر نتائج تدقيق OCR معدلات نجاح مضمونة تتراوح من 95% لصور الدردشة الواضحة إلى 45% لالتقاطات مكتوبة بخط اليد/ ضبابية، مع اتفاق معتدل إلى قوي. هذه النتائج تبرر الحاجة الماسة لجعل استرجاع RAG مدركًا للتداخل وموثوقًا في التدقيق، وتحدد المبادئ الأساسية المطلوبة لتحقيق ادعاءات الأداء السببي.

تعتبر الأبحاث المستمرة في هذا المجال جزءًا من الجهود الرامية لتحسين خوارزميات الذكاء الاصطناعي وتقديم نتائج أكثر دقة وموثوقية. فماذا تنتظر لتكون جزءًا من هذه الثورة الرقمية؟ شاركونا آرائكم في التعليقات!