في عالم الذكاء الاصطناعي المتطور، يبدو أن بيانات الأمان المعتمدة ليست كما تبدو، حسبما تكشف دراسة جديدة مثيرة للقلق حول "تسريبات النوايا" (Intent Laundering). هذه الدراسة قامت بتقييم جودة مجموعات بيانات الأمان المستخدمة على نطاق واسع من منظورين: بشكل منفصل وفي التطبيق العملي.

**في تقييمات منفصلة**، تم فحص كيف تعكس هذه البيانات الهجمات المعاكسة (Adversarial Attacks) في الحياة الواقعية بناءً على ثلاثة معايير رئيسية: دوافع خفية، جودة مُصنعة، وكميات غير متاحة للتوزيع. وقد أظهرت النتائج أن هذه المجموعات تعتمد بشكل مفرط على "الإشارات المحفزة" (Triggering Cues)، وهي كلمات أو عبارات تحمل دلالات سلبية، مُصممة لتفعيل آليات الأمان بشكل واضح، وهو الأمر الذي يعد غير واقعي مقارنةً بهجمات العالم الحقيقي.

**أما في التطبيق العملي**، فقد تم التقييم لمعرفة ما إذا كانت هذه البيانات تقيس بالفعل مخاطر الأمان أم أنها تثير الرفض من خلال الإشارات المحفزة. قدم الباحثون مفهوم "تسريبات النوايا" كطريقة تقوم بإزالة الإشارات المحفزة من الهجمات المعاكسة، بينما تحتفظ في الوقت نفسه بالنوايا الخبيثة والتفاصيل المتعلقة بها.

تشير النتائج إلى أن مجموعات بيانات الأمان الحالية لا تمثل سلوكيات المعتدين في العالم الحقيقي بشكل دقيق، وذلك بسبب اعتمادها المفرط على الإشارات المحفزة. وبمجرد إزالة هذه الإشارات، تصبح جميع النماذج التي تم تقييمها مسبقًا على أنها "آمنة إلى حد ما" غير آمنة، بما في ذلك نماذج مثل Gemini 3 Pro وClaude Sonnet 3.7/4. بل وعندما تم استخدام "تسريبات النوايا" كاستراتيجية للهروب من القيود، حققت هذه الطريقة معدلات نجاح مرتفعة في الهجمات تتراوح بين 90% إلى 100%، مجردة من أي تحصين.

بشكل عام، تكشف هذه النتائج عن فجوة كبيرة بين كيفية تقييم مجموعات البيانات الحالية لأمان النماذج وكيفية تصرف المعتدين في العالم الحقيقي. هل نحن مستعدون لمواجهة هذه الثغرات؟ ما رأيكم في هذا التطور؟ شاركونا في التعليقات!