في الوقت الذي تصبح فيه معالجة الأسئلة الاستعلامية من عناصر البحث الأساسية في مجالات الأعمال والقانون والعلوم، تتناول الكثير من الأسئلة مُعطيات مخفية ضمن النصوص. ومع ذلك، فإن الأنظمة الحالية التي تعتمد على استرجاع البيانات المعززة (Retrieval-Augmented Generation - RAG) تركز بشكل أساسي على الصلة الدلالية، مما لا يضمن تنفيذ الاستعلامات بشكل صحيح. لذا، رأى الباحثون ضرورة ابتكار معيار جديد يُعرف باسم QO-Bench.

يعمل QO-Bench كنظام تشخيصي للرد على الأسئلة المتعلقة بمشغلي الاستعلام عبر أزواج الأحداث النمطية المُحددة. يغطي هذا المعيار 22,984 مقالة إخبارية و614 حدثًا مؤسسيًا باستخدام 18 نموذج استعلام، مع تقييم لأداء 785 سؤالاً. تعتمد كل إجابة ذهبية على تقارير دقيقة من أزواج الأحداث، ويتم قياس دقة الإجابة عن طريق المطابقة التامة بدلاً من الاعتماد على نماذج اللغة الكبيرة (Large Language Models - LLM).

تصميم QO-Bench يمكّن من تشخيص مستوى المشغل، مثل الانضمامات والتقاطع، مما يساهم في توضيح مكان الفشل في الأنظمة الحالية. تطرق الباحثون أيضًا إلى تقييم RAG، RAG الخاص بتفاعل الردود، GraphRAG، وأنظمة استخراج المعلومات إلى SQL، تحت ظروف متطابقة، مع تحديد حد أعلى للإنشاء باستخدام جهود طويلة الأمد لعزل فشل الاسترجاع.

لتقديم صورة أوضح، تم تطوير إطار عمل مزدوج المحاور يراعي الحفاظ على البيانات في وقت الفهرسة مقابل تنفيذ الاستعلام في الزمن الفعلي. النتائج التي تم الحصول عليها تظهر أن الأنظمة يمكن أن تسترجع نصوصًا ذات صلة لكنها في كثير من الأحيان تفقد القيم النمطية الضرورية للمشغلين. وبحسب الأنماط المتوفرة، فإن تصنيف الأنظمة القابلة للتطبيق معكوس عبر المشغلين، إذ تتصدر استرجاعات التماثل في الفلترة/التصوير بينما يؤدي استخراج المعلومات إلى SQL في حالة التقاطع والعد.

حتى مع الأدلة الذهبية المقدمة، تبقى نماذج السياق الطويل بعيدة عن التشبع، مما يشير إلى أن تنفيذ المشغل لا يمكن أن يتجاهل فقط الاسترجاع. وبالتالي، يعيد QO-Bench صياغة الهدف من التركيز على الأهمية النسبية للمحتوى إلى الحفاظ على مشغلي الاستعلام عند الاسترجاع.