لقد أصبح تقييم مراجعات الذكاء الاصطناعي (AI) قضية محورية في الأوساط الأكاديمية والتقنية. فبينما يُعَد الاتفاق على الحكم أمرًا ضروريًا، فإنه لا يكفي بمفرده لتحديد جودة هذه المراجعات. لذا، ظهرت الحاجة إلى بدائل تتيح لنا فهم كيفية تحديد الأنظمة للقلق، prioritizing (الأولويات) وليس فقط كيف توصلت إلى الحكم النهائي.

في هذا الإطار الجديد، تم اقتراح مفهوم "توافق القلق" (Concern Alignment)، وهو عبارة عن هيكل تشعبي يُقيّم مراجعات الذكاء الاصطناعي بناءً على القلق وليس فقط الحكم. يعتمد هذا الإطار على مخطط المطابقة، وهو تطابق بين القلق المحدد رسميًا وبين ذلك الذي يولده الذكاء الاصطناعي، مُعطًى بأنواع المطابقة، وشدتها، وكيفية التعامل معها بعد الرد.

لقد أجريت دراسة تجريبية على أربعة أنظمة مراجعة ذكاء اصطناعي عامة تم تقييمها في ستة تكوينات. وكشفت النتائج أن مجرد الكشف عن القلق لا يضمن جودة المراجعة، بل إن المعايرة غالبًا ما تكون هي القيد الرئيسي. فعلى الرغم من أن الأنظمة تكتشف نسبة غير تافهة من المخاوف الرسمية، فإن معظمها تصنف 25-55% من هذه المخاوف على أنها حاسمة، في حين أن أيًا منها لم يعتبر حاسماً لدى الأوراق المقبولة.

كما تشير النتائج إلى أن التشابه في دقة الأحكام العامة يمكن أن يخفي سلوك الرفض الشديد مقابل نماذج الاسترجاع المنخفضة، وأن معدلات الرفض الحقيقية المنخفضة قد تعكس جزئيًا تخفيف القلق بدلاً من الأولويات المُعَيرة. كما أن معظم الأنظمة لا تُصدر حكم قبول/رفض بشكل أصلي، والاستنتاج من نغمة المراجعة يعتمد على طرق تحليل حساسة، وبالتالي يتعزز الطلب على تشخيصات مستوى القلق التي تبقى مستقرة عبر خيارات الاستنتاج.

تُعد هذه المساهمة إطارًا قابلًا لإعادة الاستخدام يتيح تدقيقًا فعّالًا حول أي مخاوف يحددها المراجعون المعتمدون على الذكاء الاصطناعي، ومدى وزنهم لهذه المخاوف، وما إذا كانت تلك الأولويات تتماشى مع الأسباب التي أبلغت التقييم النهائي للورقة.