في إطار مشروع ميتا-ساينس بتمويل من UKRI، يكشف باحثون عن نتائج أولية توضح كيف يُمكن لنماذج لغات ضخمة (Large Language Models) أن تعيد تشكيل عملية استخراج وتصنيف الكيانات البحثية من مقترحات التمويل. المشروع، المعروف باسم "تتبع النجوم والوحوش الأسطورية"، يهدف إلى تحديد الإشارات المبكرة لمجالات البحث الناشئة التي تُوجه الاستثمارات العامة.

تُظهِر النتائج مقارنة بين ثلاثة نماذج هي: GPT-4o وMistral وخوارزمية مخصصة تُعرف باسم DSIT-Taxonomies. تم اعتماد منهجية ثلاثية المراحل، حيث عُزز استخراج الكيانات الرئيسية باستخدام نموذج Mistral جنباً إلى جنب مع تصنيف الموضوعات من خلال نظام OpenAlex.

للتأكد من فاعلية هذه المنهجية، تم تقييم الأداء عبر 42 ملخصاً لمقترحات من مجالات متنوعة. أظهرت النتائج أن نتائج كل من Mistral وGPT-4o تتسم بالجودة العالية والتداخل الدلالي الكبير بين الكيانات، بحيث تفوقا على منهج DSIT-Taxonomies الذي بدا مُجزأً. من الجدير بالذكر أن نموذج Mistral حقق دقة تصنيف موضوعات الأعلى بنسبة 90.5% بالمقارنة مع 71.4% لـ DSIT-Taxonomies.

تُظهر هذه النتائج أن نموذج Mistral ليس فقط فعالاً من حيث الأداء، بل أيضاً يوفر حلاً آمناً وعملياً للتحليل الواسع للبيانات الحساسة المتعلقة بالتمويل، مما يعزز من فعالية الاستثمار في مجال البحث العلمي.