في عصر تزايد عدد الأوراق المقدمة للنشر، تُعتبر نماذج اللغة الكبيرة (LLMs) بمثابة الأمل في تحسين عملية مراجعة الأقران من خلال تسريعها وتعزيزها. لكن، هل تعتمد هذه النماذج على نفس المعايير والأساليب التي يتبعها المراجعون البشر؟ للإجابة على هذا السؤال، تم إطلاق إطار "Peer Review AI Benchmark" المعروف اختصارًا بـ PRAIB.
يمثل PRAIB نموذجًا مبتكرًا يضم مقاييس محددة لقياس دقة المراجعة، وأسلوبها، وسلوكيات التفاعل. دعمًا لهذا الإطار، أجريت دراسة تجريبية شاملة استخدمت مجموعة بيانات تضم 11,000 مراجعة تم إنشاؤها بواسطة خمسة نماذج، لمراجعة 1,000 ورقة من مؤتمرات ICLR وNeurIPS خلال الفترة من 2021 إلى 2025.
تكشف النتائج أن مراجعات LLMs تختلف بشكل ملحوظ عن التقييمات البشرية؛ حيث أنها أقل تنوعًا، متحيزة إيجابيًا، وذاتها من درجة ثقة مرتفعة. كما تختلف أنماط الإشارة المتقاطعة المعتمدة في المراجعات المنتجة من قبل LLMs عن المعايير البشرية. علاوةً على ذلك، أظهرت التحاليل أن نماذج اللغة الكبيرة تنتج مراجعات أطول وأكثر تعقيدًا، لكنها في الغالب تتجاهل نقاط الضعف الدقيقة التي يلاحظها المراجعون البشر.
وبهذا، يشكل PRAIB أداة تشخيصية مهمة تساعد المجتمع الأكاديمي في تحديد الجوانب التي يمكن لنماذج اللغة الكبيرة دعمها بشكل موثوق، وأي النواحي تحتاج إلى مزيد من التطوير قبل أن تصبح قابلة للاستخدام في مراجعة الأوراق.
هل يمكن لنماذج اللغة الكبيرة (LLMs) أن تحل محل مراجعي الأقران؟ اكتشفوا Benchmark PRAIB الثوري!
أطلق الباحثون إطارBenchmark PRAIB لتقييم أداء نماذج اللغة الكبيرة (LLMs) في مراجعة الأبحاث، حيث يكشف التحليل عن نقاط ضعف وفجوات مقارنة بالمراجعين البشريين. اكتشفوا كيف يمكن لـ LLMs تحسين سرعة وجودة مراجعة الأبحاث!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
