في مجال الذكاء الاصطناعي، لطالما كانت دقة القضاة في تقييم النماذج مسألة مثيرة للجدل. أحدث دراسة نشرتها منصة arXiv تسلط الضوء على طريقة جديدة لتحسين أداء القضاة من خلال استخدام نموذجين من الحوار بين المقترح والنقد (Proposer-Critic Debate).

توضح النتائج أنه رغم الوعود النظرية بتقنيات الحوار، فإن النتائج العملية لم تكن متسقة دائماً. ففي بعض الأحيان، كانت هناك مكاسب ملحوظة، بينما في أوقات أخرى، لم يكن هناك تأثير يُذكر، خاصة عندما لا يمتلك القاضي معلومات مُخفاة.

تستند الدراسة إلى سيناريوهات حيث يناقش نموذج أقوى (المقترح) مع نموذج أضعف (القاضي) في مهام شفافة يمكن التحقق منها برمجياً. وفي الحالات التي كانت فيها قدرة الناقد على التصنيف تفوق قدرة القاضي، أظهرت النتائج تحسناً ملحوظاً. لكن في الزوجين الذين لم يُظهروا الاستجابة المناسبة، انخفضت معدلات تحقق القاضي بشكل كبير.

علاوة على ذلك، وُجد أن حذف جولات الرد في النقاش لم يُحدث تغيرات ملحوظة في أداء القاضي، مما يشير إلى أن النقد المستقل قد يوفر فوائد مماثلة بتكاليف أقل.

هذه النتائج تحمل دلالات قوية حول إمكانية استخدام نهج أقل تكلفة في برامج التدريب والتقييم في مجالات يمكن التحقق منها، مما يفتح الأبواب أمام مزيد من الأبحاث والتطورات في هذا المجال الديناميكي.