أعلنت مجموعة من الباحثين عن إطلاق مجموعة البيانات الجديدة StratRAG، وهي عبارة عن مجموعة بيانات مفتوحة تهدف إلى تحسين تقييم أنظمة استرجاع المعلومات المعززة (Retrieval-Augmented Generation – RAG) في مهام التفكير المعقد. تتضمن StratRAG 2,200 مثال في ثلاثة أنواع من الأسئلة: أسئلة الربط (bridge)، المقارنة (comparison)، والأسئلة بنعم أو لا (yes-no).

كل سؤال يأتي مع مجموعة من 15 وثيقة مرشحة، تحتوي على وثيقتين ذهبيتين و13 وثيقة مرتبطة بالموضوع ولكنها قد تكون مضللة. تم اختبار ثلاث استراتيجيات استرجاع وهي: BM25، الاسترجاع الكثيف (Dense Retrieval – all-MiniLM-L6-v2)، والدمج الهجين، حيث أظهرت النتائج أن الاسترجاع الهجين يسجل أفضل أداء بشكل عام (Recall@2 = 0.70، MRR = 0.93). ومع ذلك، كانت أسئلة الربط أكثر تعقيدًا، مما يشير إلى ضرورة إجراء مزيد من الأبحاث حول سياسات الاسترجاع المعتمدة على التعزيز الذاتي.

للذين يرغبون في استكشاف هذه البيانات بشكل أعمق، تتوفر StratRAG علنًا على موقع Hugging Face، مما يسهل الوصول والاستفادة منها في الأبحاث والمشاريع المستقبلية.