تسعى كاشفات الكذب في نماذج الذكاء الاصطناعي إلى تقديم تقنيات قوية تسمح بتدقيق سلوك النماذج ومراقبتها. ولكن، كيف يمكن تقييم دقة هذه الكاشفات؟ أظهرت الدراسات أن النماذج الحالية قد تعاني من صعوبات تتعلق بإثبات مصداقيتها. في دراسة جديدة منشورة على موقع arXiv، تناول الباحثون هذه التحديات من خلال تطوير 13 نموذجاً تفكيرياً يتحقق من معتقداتها الخفية.

يتطلب الأمر وجود بيئات اختبار يمكن فيها التحقق من حقيقة ما تقوله النماذج. أظهرت النتائج أن كاشفات الكذب الحالية، مثل مدقق سلسلة الأفكار، وخوارزميات تجزئة المعطيات، تفقد دقتها بشكل ملحوظ عند تطبيقها على تلك النماذج. ولكنها أثبتت قدرتها على الأداء الجيد مع نماذج يصل حجمها إلى تريليون معلمة، حيث أظهرت دقة متوازنة بلغت 0.82.

ومع ذلك، تحذر الدراسة من أن كاشفات الكذب الحالية لا تستطيع دعم ادعاءات موثوقة بشأن معتقدات النموذج. لذا، تقدم الدراسة مقترحات للأبحاث المستقبلية لتحسين فعالية هذه الكاشفات. كما تم توفير البيانات والنماذج المستخدمة في الدراسة لتشجيع المزيد من البحث في هذا المجال المهم.