تسود الآن الأنظمة المستقلة متعددة الوكلاء المرتكزة على نماذج اللغة الكبيرة (LLMs) بشكل متزايد في مجالات عدة، حيث تُستخدم للتحقيق في الحوادث التشغيلية وإنتاج تقارير تشخيصية منظمة. ومع ذلك، تعتمد موثوقية هذه الأنظمة بشكل كبير على ما إذا كان كل ادعاء يعتمد على دليل مشاهد بدلاً من الاعتماد على استنتاجات داخلية للنموذج.

تشير الأبحاث الأخيرة إلى أن أدوات تقييم موثوقية البيانات الحالية، مثل المصنفات الثنائية، وتقنيات القاضي (LLM-as-judge)، والحلقات التصحيحية، تعامل الأدلة الداعمة كأنها متبادلة، مما يؤدي إلى إشارة فردية لا توفر تحكمًا أساسيًا فوق الإجراءات المترتبة.

لكن الجديد هو GSAR، وهو إطار للتقييم وإعادة التخطيط يهدف إلى رفع مستوى الموثوقية. هذا النظام:
1. يقوم بتقسيم الادعاءات إلى أربعة أنواع: مبنية على دليل، وغير مبنية، متناقضة، ومكملة، مما يمنح أهمية خاصة لوجهات النظر البديلة.
2. يُخصص أوزانًا محددة لنوع الأدلة تعكس القوة المعرفية.
3. يحسب درجة موثوقية البيانات الموزونة مع فرض عقوبات على التناقضات.
4. يرتبط ذلك بدرجة مع وظيفة قرار تتضمن ثلاثة مستويات: المضي قدمًا، إعادة التوليد، وإعادة التخطيط، مما يدفع حلقة مزدوجة تحت ميزانية حساب محددة.

تمت formalizing الخوارزمية وتم إثبات ست خصائص هيكلية وتقييم خمسة ادعاءات تصميمية على FEVER مع أدلة ويكيبيديا الذهبية تحت حكم أربعة قضاة مستقلين من نماذج مختلفة (gpt-5.4، claude-sonnet-4-6، claude-opus-4-7، gemini-2.5-pro). جميع التجارب أثبتت نفس الاتجاه على كل قاضٍ، مما يدل على فعالية GSAR في تقييم الدقة. في المجمل، يُعتبر GSAR هو أول إطار نشر لتقييم الموثوقية المرتكز على الأدلة الذي يجمع بين تصنيف الدرجات وتخطيط الاسترداد ضمن ميزانية حسابية محددة.

هذا الابتكار يعد خطوة كبيرة نحو تعزيز الثقة في أنظمة الذكاء الاصطناعي، وأحد الأسئلة الرئيسية الذي يطرح نفسه الآن هو: كيف يمكن لنموذج GSAR أن يُحسن من تطبيقات الذكاء الاصطناعي في مجالات مختلفة؟ شاركونا في التعليقات.