في عالم الذكاء الاصطناعي، تعد ألعاب الاستنتاج الاجتماعي واحدة من أكثر المجالات إثارة للاهتمام. حيث تمثل بيئة خصبة لاختبار قدرات الوكلاء الذكيين في التفكير، والكذب، والتنسيق، ونمذجة المعتقدات. ولكن، هل يمكن الاعتماد على نتائج هذه الألعاب فقط لقياس كفاءة الذكاء الاصطناعي؟ هنا جاءت QUACK (Questioning, Understanding, and Auditing Communicated Knowledge) لتغيير قواعد اللعبة.

تقدم QUACK بيئة مفتوحة المصدر وإطار تقييم يركز على تدقيق لغة الوكلاء الذكيين في سياق الاستدلال الاجتماعي. يتجاوز QUACK تقييم الأداء بناءً على نتائج اللعبة فقط، من خلال قياس الجوانب الثلاثة الهامة: نتائج اللعبة، مسارات السلوك، والاتساق على مستوى العبارات.

تعمل هذه المنصة على بناء مسار موحد لكل وكيل من خلال تسجيلات المحرك، وتفحص كل ادعاء لدى الوكيل مقابل هذا المسار. من خلال هذه العملية، يتم التعرف تلقائيًا على الإخفاقات مثل الهلوسة المكانية، والاتهامات غير المدعومة، والكذب، وعدم الاتساق بين اللغة والفعل.

ومع اختبار ثلاثة نماذج لغوية كبيرة (Large Language Models) في بيئات تنافسية متجانسة وعابرة، أظهرت النتائج أن حتى الوكيل الأقوى يعاني من الهلوسة في حوالي 15.1% من ادعاءاته المكانية القابلة للتحقق، ويقدم أكثر من نصف اتهاماته بدون أدلة موزونة.

للمهتمين بالتعمق أكثر، يمكنكم الاطلاع على جميع أدوات ومنظومات QUACK من خلال الرابط [رابط_المقال].

فلنتشارك الآراء: هل تعتبر أن قدرات الذكاء الاصطناعي في فهم وتحليل المعلومات أصبحت فعلاً مضمونة؟ نحن في انتظار آرائكم!