في عالم الذكاء الاصطناعي، تُعتبر نماذج التفكير الكبيرة (Large Reasoning Models) من أبرز التطورات. لكن مع هذه الابتكارات تأتي تحديات جديدة. وقد كشفت دراسة حديثة عن وجود "نقاط عمياء" في الأمان الخاص بهذه النماذج، حيث يمكن أن تظهر محتويات ضارة أو تنتهك السياسات حتى عند إنتاج إجابات تبدو آمنة.

تظهر النتائج أن السلامة على مستوى الإجابة النهائية ليست كافية لتقييم المخاطر الكاملة. باستخدام معايير أمان موحدة تتضمن عشرين مبدأ، تم اختبار 15 نموذجاً من نماذج التفكير الكبيرة عبر 41,000 عبارة نصية، وكشفت النتائج عن وجود مخاطر أمان إضافية تتجاوز تلك المتعلقة بالإجابات النهائية. وتظهر الحالات عالية الخطورة، مثل حالات التسرب عندما يسبق التفكير غير الآمن إجابة تبدو آمنة، وكذلك حالات الهروب حيث يُظهر التفسير الودي إجابات غير آمنة.

تكشف التحليلات على مستوى المبادئ أن المخاطر تركزت في مجالات المعلومات المضللة، والتوافق القانوني، والتمييز، والأذى الجسدي والنفسي. وللتعامل مع هذه المخاطر، اقترح الباحثون استراتيجية جديدة تُعرف باسم "التحكم المتكيف عبر المبادئ المتعددة" (Adaptive Multi-Principle Steering)؛ وهي تقنية تقليل المخاطر على مستوى الاختبار تتعلم اتجاهات التحفيز غير الآمنة إلى الآمنة لكل مبدأ أمان.

تظهر النتائج أن هذه الطريقة تقلل من حالات عدم الأمان وكشفت أن نموذج DeepSeek-R1-Qwen-7B حقق تقليلاً بنسبة 40.8% في عدد حالات عدم الأمان، مع الحفاظ على مستوى دقة يبلغ 97.7%. هذا يشير إلى أهمية تقييم أمان نماذج التفكير الكبيرة خلال مسارها الكامل وليس فقط عند مرحلة الإجابة النهائية.

كيف يمكننا تحسين الأمان في الذكاء الاصطناعي؟ وما هي الخطوات التي يجب أن نتخذها للحد من المخاطر المحتملة؟ اترك تعليقاتك حول هذا الموضوع.