في ظل النمو المتزايد لاستخدام نماذج اللغة الكبيرة (Large Language Models) في مجال الإجابة على الأسئلة (Question-Answering)، يواجه التقييم المعتمد على مراجع ثابتة تحديات كبيرة تتعلق بالتكلفة، القابلية للتوسع، واكتمال المعلومات. تعد الاعتماد على نماذج اللغة الكبيرة نفسها كمقيمين دون وجود مرجعية خارجية أمراً غير موثوق به، إذ تقوم هذه النماذج عادةً بقبول إجابات غير صحيحة، وتلفق مبررات متوهمة، وتؤدي بشكل ضعيف عندما تتجاوز الأسئلة نطاق بياناتها التدريبية.

لذلك، نقدم إطار عمل جديد يسمى ساج (Search-AuGmented Evaluation)، والذي يقيم مخرجات نماذج اللغة الكبيرة دون الحاجة إلى إجابات ثابتة كمرجعية. على عكس المقاييس التقليدية التي تقارن بالمراجع الثابتة أو تعتمد فقط على معرفة نماذج اللغة، يعمل ساج كوكيل نشط يسترجع ويجمع الأدلة الخارجية. يقوم ساج على توليد استفسارات بحثية بشكل متكرر، وجمع المعلومات، وتلخيص النتائج، وتحسين عمليات البحث التالية من خلال التفكير العميق.

من خلال تقليل الاعتماد على بروتوكولات التقييم المعتمدة على المراجع الثابتة، يوفر ساج بديلاً مرنًا وقابلًا للتوسع لتقييم واقعية نماذج اللغة الكبيرة. أثبتت التجارب على العديد من معايير الأسئلة الحرة أن ساج يحقق توافقًا كبيرًا، يمتد إلى المثالية، مع التقييمات البشرية.

إن وجود إطار عمل مثل ساج يعيد تشكيل الطريقة التي نقيم بها الذكاء الاصطناعي، مما يجعله أداة حيوية لمستقبل الذكاء الاصطناعي وأبحاثه.