أصبح استخدام النماذج اللغوية الكبيرة (Large Language Models - LLMs) في الأبحاث أمراً شائعاً، ولكن لا يزال هناك تساؤلات حول ما إذا كانت هذه النماذج قادرة على تقديم نتائج علمية موثوقة تتناسب مع قوة ونطاق الأدلة الداعمة لها. في هذا السياق، نقوم بدراسة جديدة تركز على تقديم ملخصات علمية موثوقة مدعومة بالأدلة.

يعتمد أسلوبنا على نموذج 'كال بريف' (CalBrief)، وهو إطار عمل موثق يتحقق من الفجوات والقوة المعلوماتية. من خلال هذا النموذج، قمنا بتطوير معيار تشخيصي يضم 16 حزمة علمية متنوعة و96 نتيجة موثقة من قبل الأفراد.

تظهر النتائج أن التنظيم الهيكلي للمعلومات يعزز من دقة الفهم لكل من الفجوات والدور، ولكن سياسة التصنيف السليمة كانت بشكل عام متحفظة أكثر من اللازم، حيث انخفضت النتائج عن معايير النماذج اللغوية المباشرة.

عند إجراء تقييم عادل، تبين أن حوالي 63% من الفجوة الناتجة عن التحفظ يمكن عزوه إلى توسيع نطاق التصنيفات من ثنائية 'معتدلة، ضعيفة' إلى تصنيفات رباعية تشمل 'معتدلة، ضعيفة، غير مؤكدة، أدلة غير كافية'، بينما كانت نسبة 1% فقط ناتجة عن إدخال إشارات الفجوة/النطاق. تشير هذه النتائج أيضاً إلى أن القدرة على إصدار أحكام القوة على مستوى التصنيفات وتنظيم الأدلة بشكل موثق هي قدرات مستقلة يجب أن تقيم بشكل منفصل في قائمة المساعدين البحثيين المعتمدة على النماذج اللغوية.

نستنتج أن هذه الأبحاث تسلط الضوء على أهمية تطوير أدوات قادرة على تقديم معلومات دقيقة تدعم اتخاذ القرارات البحثية، مما يفتح المجال لمزيد من التحسينات في هذا المجال الحساس.