تحدثت دراسة حديثة عن أهمية استراتيجيات استرجاع البيانات في دعم نماذج اللغة الكبيرة (Large Language Models) بالأدلة المعرفية في مجالات حيوية كبرى كالطب الحيوي. فعلى الرغم من الفوائد العديدة التي تقدمها هذه الاستراتيجيات، إلا أن تحديد الاستراتيجية المثلى في مجال الطب الحيوي لم يحظ بتقييم دقيق من قبل.

تقدم هذه الدراسة مقارنة تجريبية شاملة لخمسة استراتيجيات استرجاع، وهي: البحث عبر المتجهات الكثيفة (Dense Vector Search)، والاسترجاع الهجين القائم على BM25 والبحث الكثيف (Hybrid BM25 + Dense retrieval)، وإعادة ترتيب الموجه الحُججي (Cross-Encoder Reranking)، وتوسيع الاستعلامات المتعددة (Multi-Query Expansion)، وأخيراً الأهمية المتزايدة للمعلومات (Maximal Marginal Relevance - MMR). تم استخدام نموذج توليد ثابت (GPT-4o-mini) ومخزن متجه مشترك (ChromaDB) على جميع الاستراتيجيات المتبعة، مما يضمن تعيين الاختلافات الملحوظة لاستراتيجيات الاسترجاع فقط.

تُظهر تقييمات دقيقة تم إجراؤها على 250 زوج سؤال-جواب مستخلصة من مجموعة معايير BioASQ باستخدام أربعة معايير (DeepEval) تشمل الدقة والسياق والتذكر والموثوقية، أن استراتيجية إعادة ترتيب الموجه الحُججي تحقق أفضل نتيجة تراكمية (0.827) وأعلى دقة سياقية (0.852).

في حين أن توسيع الاستعلامات المتعددة، رغم تصميمه الذي يركز على تذكر المعلومات، أنتج أدنى دقة سياقية (0.671)، مما يدل على أن تنويع الاستعلامات قد يؤدي إلى إدخال ضوضاء في النتائج. وبالرغم من أن استراتيجية MMR تضحي بملاءمة الإجابات من أجل التنوع، إلا أن نموذج البحث الكثيف يبقى قريباً من الأداء الأفضل بفارق نقاط ضئيل (0.822).

تؤكد النتائج أن جميع الاستراتيجيات المطروحة تتفوق بشكل كبير على التقييمات بدون سياق (0.658-0.701 مقابل 0.287) مما يعكس القيمة العملية للاسترجاع. كما أن جميع الأكواد الخاصة بالتجربة متاحة للعموم.

ما تقدمه هذه الدراسة هو قيمة حقيقية في تحسين كيفية استرجاع البيانات وتحليل المعلومات الحيوية، مما يفتح آفاق جديدة لاستخدام النماذج اللغوية في مجالات طبية معقدة.