في عالم البحث الأكاديمي، يُعتبر تحليل الأدبيات من الخطوات الأساسية التي تحدد جودة البحث ونجاحه. لكن، هل كانت الاقتباسات البشرية التي اعتدنا عليها فعلاً معياراً موثوقاً للتقييم؟ في دراسة جديدة، تم تسليط الضوء على جانبين متكاملين لإعادة التفكير في تقييم البحث الأدبي: تحسين عمليات الاسترجاع وامتحان قوائم المراجع البشرية.

تم تطبيق استراتيجية مبتكرة تُعرف باسم "Deep Research"، التي تتعامل مع الورقة البحثية الكاملة وتقوم بتوسيع النتائج المسترجعة من خلال استكشاف المراجع المذكورة. وقد أظهرت النتائج أن هذه الاستراتيجية تجاوزت الطرق التقليدية في البحث، حيث ارتفعت معدلات استرجاع المعلومات من أقل من 20% إلى أعلى من 80% في اختبار RollingEval-Jun25 الذي يتضمن 250 ورقة بحثية.

علاوة على ذلك، استخدم الباحثون نموذج لغوي محايد (Neutral LLM) كحكم لتحديد مدى موثوقية الاقتباسات البشرية كمصدر للتقييم. shocking findings revealed that only 51% of the human citations were deemed moderately relevant or higher, بينما وصلت النسبة إلى 86-88% عند استخدام تقنيات إعادة الترتيب المعتمدة على الذكاء الاصطناعي. وأشارت الدراسة إلى الفجوة في بيانات الشراكة التي أظهرت أن البشر يميلون بنسبة 2.5 مرات أكثر من أفضل تقنيات إعادة الترتيب لاستشهاد زملائهم المباشرين.

تؤكد نتائج هذه الدراسة على ضرورة النظر في استراتيجيات متعددة الأبعاد عند تقييم استرجاع الأدبيات. بدلاً من الاعتماد على معيار واحد، من المفيد دمج معدل الاسترجاع، تصنيف الموضوعات، تنوع القوائم، وتحليل المسافات بين الشراكات، لتقييم جودة الاقتباسات بشكل شامل.