تتزايد المخاوف بشأن استخدام تقنيات التزييف العميق (Deepfake) في الخطابات الصوتية، مما يجعل البحث عن طرق فعالة للكشف عن أصوات اصطناعية أمراً ملحاً. ومع ذلك، لا يزال الفهم الاجتماعي والتقني حول كيفية تفاعل البشر مع هذه الأصوات غير واضح. في هذه الدراسة، تم التحقيق في الكشف عن الأصوات الاصطناعية كعملية إدراكية وسياقية، حيث تم دعوة 47 مشاركاً للمشاركة في تجربة تضمنت تحديد مقاطع صوتية مشبوهة بين عبارات حقيقية، وأخرى اصطناعية بالكامل، وجزء منها اصطناعي.

أثناء التجربة، تم تعديل ثلاث إشارات ثقة رئيسية: صياغة التعليمات، التحفيز العاطفي، وتحديد المصدر. وقد قام المشاركون بتقييم جودة الصوت بناءً على عدة معايير تشمل: الميكانيكية، التعبيرية، الوضوح، الهدوء، والثقة في التقييم. وقد أظهرت النتائج أن نوع العبارة كان العامل الرئيسي في تحديد دقة الكشف وجودة الإدراك، بينما لم تؤثر إشارات الثقة بشكل رئيسي لكنها حفزت سلوك الكشف.

مما يجدر ذكره أن الأصوات الاصطناعية بالكامل تم كشفها بمعدلات أدنى من الفرصة، وهو ما يشير إلى وجود تمييز ضمني بين الأنواع المختلفة للعبارات حيث فشل الكشف العلني. هذه النتائج تفتح آفاق جديدة حول البحوث المتعلقة بكيفية فهم البشر والتفاعل مع تكنولوجيا الخطابات الاصطناعية بشكل أكثر دقة وكفاءة.