في عالم الأبحاث العلمية، يمثل الذكاء الاصطناعي (AI) ثورة حقيقية، ومع ظهور أنظمة المراجعة الذكية، يتم العمل على تخفيف الضغط الكبير الذي تتعرض له أنظمة المراجعة التقليدية. فكيف يتم تقييم هذه الأنظمة الجديدة وما هو أداؤها؟

أجرت دراسة جديدة تقييمًا لثلاث أنظمة مراجعة، تشمل نظامين مفتوحين المصدر (OpenAIReview و coarse) وآخر ملكي (Reviewer3)، بالإضافة إلى استخدام نموذج أساسي. شاركت هذه الأنظمة في تقييم ستة نماذج لغوية ضخمة (LLMs) تغطي الموديلات المتقدمة والفعالة.

ركزت الدراسة على مدى نجاح مراجعات الذكاء الاصطناعي في تتبع جودة الأبحاث المقدمة في مؤتمرات مرموقة مثل ICLR وNeurIPS، وذلك من خلال الإشارات الخارجية مثل الاقتباسات وقرارات القبول. كانت النتائج مذهلة، حيث سجل نظام OpenAIReview مع GPT-5.5 دقة تصل إلى 83%.

لم تتوقف الدراسة عند هذا الحد، بل قامت أيضًا بإعداد اختبار خاص لقياس مدى قدرة الأنظمة على الكشف عن الأخطاء باستخدام بيانات معروفة. تم اختبار أربع فئات من الأخطاء عبر ثماني فئات تخصصية في arXiv. وحقق تكوين OpenAIReview مع GPT-5.5 71.6% من النجاح في اكتشاف الأخطاء المحققة، مما يترك مجالًا كبيرًا للتحسين.

ومع ذلك، جمعت النتائج عبر ستة نماذج لتصل إلى 83.3% في اكتشاف الأخطاء، مما يشير إلى أن النماذج المختلفة يمكن أن تكتشف أخطاء معينة بشكل أفضل.

بالإضافة إلى تلك النتائج، تم تحليل استخدام OpenAIReview في بيئة حقيقية، حيث أظهرت التعليقات أن 1.44 من المشروعات كانت إيجابية، مع شكاوى رئيسية حول الإيجابيات الخاطئة والتفاصيل الثانوية.

بشكل عام، تشير النتائج إلى أن مراجعات الذكاء الاصطناعي قد حققت تقدمًا كبيرًا، حيث يمكنها تتبع تقييمات الجودة البشرية بكفاءة وكشف الأخطاء الهامة، مما يمنحها قبولاً إيجابياً من المستخدمين. ما هي توقعاتكم حول مستقبل أنظمة المراجعة الذكية؟ شاركونا آراءكم في التعليقات!