في عالم التجارب السريرية، يُعتبر تجنيد المرضى عملية معقدة وصعبة تعاني من حجم كبير من العمل، مما يؤدي في كثير من الأحيان إلى قلة العدد المطلوب من المتطوعين، وبالتالي تعثر التجارب. لكن، يلوح في الأفق أمل جديد بفضل الانجازات الأخيرة في نماذج اللغات الضخمة (Large Language Models) التي توفر فرصاً مبتكرة لتحسين هذه العملية.

أجرى الباحثون دراسة منهجية لاستكشاف النماذج المولدة المتقدمة، سواء منها القائمة على التشفير أو على فك التشفير، لمساعدتهم في مسح السرديات السريرية لتسهيل تجنيد المرضى. تم تناول كل من النماذج العامة المحورية والنماذج الطبية المعدلة في هذه الدراسة، وركز الباحثون على ثلاثة استراتيجيات لمعالجة مشكلة "الضياع في الوسط" عند التعامل مع الوثائق الطويلة:

1. **السياق الطويل الأصلي**: استخدام النوافذ السياقية الافتراضية لنماذج اللغات الضخمة.
2. **التلخيص المستند إلى التعرف على الكيانات المعنوية (NER)**: تحويل الوثائق الطويلة إلى ملخصات باستخدام تقنيات التعرف على الكيانات.
3. **استرجاع الأدلة الديناميكي (RAG)**: استرجاع المعلومات بناءً على معايير الأهلية.

استنادًا إلى مجموعة البيانات المرجعية N2C2 Track 1 لعام 2018، أثبتت نتائج التجارب أن نموذج MedGemma باستخدام استراتيجية RAG حقق أعلى نتيجة في الدقة بمعدل 89.05%، متفوقًا بذلك على النماذج الأخرى. كما تمكنت نماذج اللغات الضخمة من تحسين معايير التجارب التي تتطلب تفكيراً طويل الأمد عبر الوثائق الطويلة، بينما أظهرت المعايير التي تستند إلى أجزاء قصيرة من النصوص (مثل اختبارات المعامل) تحسينات تدريجية.

لضمان التبني الفعلي لنماذج اللغات الضخمة في تجنيد المرضى، يجب أخذ معايير محددة في الاعتبار عند اختيار بين الاستعلامات المعتمدة على القواعد، ونماذج اللغات الضخمة القائمة على التشفير، والنماذج المولدة، مما يضمن تحقيق أقصى كفاءة بتكاليف حوسبة معقولة.