في عالم الذكاء الاصطناعي (AI) المتطور، لا تقتصر التهديدات العدائية على استهداف سلوك النماذج فقط، بل تمددت لتشمل الثقة البشرية في اتخاذ القرارات، مما يهدد العملية الإدراكية للمستخدمين. مع تقدم نماذج اللغات الضخمة (LLMs) في تقديم شروحات طبيعية وطلاقة، أصبح هناك حلقة تواصل جديدة بين الذكاء الاصطناعي والمستخدمين، مما يعكس سطح هجوم جديد يتطلب اهتمامنا.

أدخلت دراسة حديثة مفهوم "الهجمات العدائية على الشروحات" (Adversarial Explanation Attacks - AEAs)، والتي تستند إلى تغيير سياق الشروحات التي تقدمها نماذج اللغات الضخمة، بهدف تعديل الثقة البشرية في النتائج الخاطئة. ومن خلال قياس فارق سوء ضبط الثقة، أي الفرق في ثقة البشر بين الشروحات الطيبة وتلك العدائية، تمكنا من تسليط الضوء على المخاطر السلوكية التي يمكن أن تؤدي إلى الحفاظ على ثقة المستخدم، حتى حين تكون التوقعات الناتجة عن الذكاء الاصطناعي خاطئة.

بالإضافة إلى ذلك، أجريت دراسة شملت أكثر من 200 مشارك، حيث تم تعديل أربعة أبعاد من أبعاد الشرح: نمط التفكير، نوع الأدلة، أسلوب التواصل، والتنسيق التقديمي. وجدت النتائج أن المستخدمين أبلغوا عن ثقة متقاربة في الشروحات العدائية والتقليدية، مع الحفاظ على ثقة كبيرة حتى مع الأخطاء، مما يظهر ضعفاً ملحوظاً في الحالات التي تتشابه فيها الشروحات العدائية بشكل وثيق مع تلك المقدمة من قبل الخبراء، حيث كانت الأدلة موثوقة ونبرة الحديث محايدة.

تظهر الدراسة أن الأخطاء كانت أكثر عرضة للاستغلال، خصوصًا في المهام الصعبة وعند الأفراد الأقل تعليماً أو الأكثر ثقة في الذكاء الاصطناعي. في ضوء هذه النتائج، يجب علينا كمجتمع تقني أن نبحث في سبل توفير شروحات أكثر صدقًا وشفافية، لضمان عدم استغلال الثقة التي يبنيها المستخدمون مع هذه التقنيات المتقدمة.

ما رأيكم في هذا التطور؟ هل تعتقدون أن الذكاء الاصطناعي يجب أن يخضع لمزيد من التنظيم في كيفية تقديم الشروحات؟ شاركونا في التعليقات.