في عالم تتزايد فيه شعبية النماذج اللغوية الضخمة (Large Language Models) يوماً بعد يوم، تسلط دراسة جديدة الضوء على تحديات جديدة في مجال مراجعات الأدبيات. حيث تكشف الأبحاث أن فرز الدراسات العلمية باستخدام هذه النماذج قد لا يكون دائمًا متسقًا أو موثوقًا كما يُعتقد.
تمت الدراسة من خلال تحليل أداء 12 نموذجًا لغويًا من 4 مزودين معروفين، مثل OpenAI وGoogle Gemini وAnthropic وLlama، إلى جانب 4 نماذج تقليدية شهيرة مثل الانحدار اللوجستي (Logistic Regression) وتصنيف الدعم الفائق (Support Vector Classification). تمت دراسة هذه النماذج على شقيقتين من مراجعات الأدبيات، شملت 518 بحثًا علميًا.
أظهرت النتائج أن هناك تفاوتًا ملحوظًا في أداء النماذج، حيث أُشير إلى أن الاعتماد على العناوين والأقوال يمكن أن يؤثر بشكل كبير على النتائج. إذ أُثبت أن حذف الملخص يؤدي إلى تدهور أداء النماذج، بينما لم تقدم إضافة العنوان أو الكلمات الرئيسية تحسينات قوية.
الغريب في الأمر أن المقارنة بين النماذج اللغوية الضخمة والنماذج التقليدية لم تعكس تفوقًا عامًا لهذه النماذج الجديدة، مما يطرح تساؤلات حول ما إذا كانت المزايا المفترضة لهذه النماذج كافية لتعزيز موثوقية البحث العلمي.
في نهاية المطاف، تطالب الدراسة بضرورة اتخاذ قرارات اعتماد النماذج بناءً على اعتبارات تشغيلية وإدارية، مثل قابلية إعادة إنتاج النتائج وتوافر البيانات، مع التركيز على أهمية الفحص الأولي والتحقق من التباين في الأدوات المستخدمة.
هل يمكن لنماذج الذكاء الاصطناعي تحسين مراجعات الأدبيات؟ اكتشافات جديدة تُثير الجدل!
تشير دراسة جديدة إلى وجود تفاوت كبير في أداء نماذج اللغات الضخمة أثناء فرز الدراسات في مراجعات الأدبيات، مما يثير تساؤلات حول فعاليتها مقارنة بالنماذج التقليدية. كيف يؤثر ذلك على مصداقية البحث العلمي؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
