تزايد استخدام نماذج اللغات الضخمة (Large Language Models - LLMs) في عمليات مراجعة الأدبيات النظامية (Systematic Reviews - SRs)، ولكن ما تزال هناك تحديات كبيرة في تقييم أدائها بشكل دقيق. تتنوع مقاييس الأداء المستخدمة، ولكن بعض هذه المقاييس قد تكون مضللة، خاصة في حالة تشويه هيئة البيانات.

لذلك، تم تقديم توصيات عملية تشمل تطوير مؤشر متوازن جديد يسمى “Weighted Matthews Correlation Coefficient” (WMCC)، الذي يساعد الباحثين في تقييم أداء نماذج اللغات الضخمة بشكل أكثر دقة. حيث تم استخدام بيانات من ثلاث دراسات طبية للتأكد من فاعلية هذا الأسلوب، وعبر دراسة 29 ورقة بحثية، وُجد أن 10% فقط منها ذكروا مقاييس “MCC”، بينما كان النقص في التقارير الكاملة لهيئات الالتباس ملحوظاً.

كما أظهرت النتائج أن أسلوب WMCC قد يقدم تقييمات مختلفة مقارنةً بأسلوب “MCC” التقليدي، مما يسهل عملية فهم تزايد قيمة الأدلة المفقودة (Lost Evidence) وجودة البيانات المدخلة. إن استخدام الأساليب التي تركز على هذه الفروقات يمكن أن يؤدي إلى تحسين مستقبلي ملحوظ في كيفية إجراء مراجعات الأدبيات.

تأتي هذه الأنماط الجديدة لتعيد تعريف كيفية تقييم نماذج اللغات الضخمة في السياقات البحثية المهمة. لذا من الضروري أن تشمل الإحصائيات الكاملة لجميع مقاييس الأداء، مع المعالجة البشرية للنتائج غير القابلة للتصنيف، للحد من الأخطاء.

فما رأيكم في هذه التطورات في تكنولوجيا الذكاء الاصطناعي؟ هل تعتقدون أن هذه التوصيات ستساهم في تحسين نتائج الأبحاث؟ شاركونا آراءكم!