في عصر تزايد عدد الأوراق المقدمة للنشر، تُعتبر نماذج اللغة الكبيرة (LLMs) بمثابة الأمل في تحسين عملية مراجعة الأقران من خلال تسريعها وتعزيزها. لكن، هل تعتمد هذه النماذج على نفس المعايير والأساليب التي يتبعها المراجعون البشر؟ للإجابة على هذا السؤال، تم إطلاق إطار "Peer Review AI Benchmark" المعروف اختصارًا بـ PRAIB.

يمثل PRAIB نموذجًا مبتكرًا يضم مقاييس محددة لقياس دقة المراجعة، وأسلوبها، وسلوكيات التفاعل. دعمًا لهذا الإطار، أجريت دراسة تجريبية شاملة استخدمت مجموعة بيانات تضم 11,000 مراجعة تم إنشاؤها بواسطة خمسة نماذج، لمراجعة 1,000 ورقة من مؤتمرات ICLR وNeurIPS خلال الفترة من 2021 إلى 2025.

تكشف النتائج أن مراجعات LLMs تختلف بشكل ملحوظ عن التقييمات البشرية؛ حيث أنها أقل تنوعًا، متحيزة إيجابيًا، وذاتها من درجة ثقة مرتفعة. كما تختلف أنماط الإشارة المتقاطعة المعتمدة في المراجعات المنتجة من قبل LLMs عن المعايير البشرية. علاوةً على ذلك، أظهرت التحاليل أن نماذج اللغة الكبيرة تنتج مراجعات أطول وأكثر تعقيدًا، لكنها في الغالب تتجاهل نقاط الضعف الدقيقة التي يلاحظها المراجعون البشر.

وبهذا، يشكل PRAIB أداة تشخيصية مهمة تساعد المجتمع الأكاديمي في تحديد الجوانب التي يمكن لنماذج اللغة الكبيرة دعمها بشكل موثوق، وأي النواحي تحتاج إلى مزيد من التطوير قبل أن تصبح قابلة للاستخدام في مراجعة الأوراق.