تعد هجمات حقن التعليمات (Prompt Injection Attacks) من التهديدات المتزايدة التي تستهدف أنظمة الذكاء الاصطناعي القائمة على نماذج اللغة الضخمة (Large Language Models). في حين أن طرق الدفاع الحالية تظهر أن هذه الهجمات تفشل في كثير من الأحيان، إلا أن التقييمات الحديثة أظهرت عكس ذلك، حيث تتهاوى نتائج هذه الدفاعات عندما يُسمح للمهاجم بتكييف استراتيجياته وفقًا للدفاعات المطبقة.

في البحث الجديد، يكشف الباحثون عن مشكلتين رئيسيتين تقوضان فعالية الدفاعات الحالية. أولاً، تقتصر الدفاعات التقليدية على التعرف على أنماط هجمات محددة، دون تقييم ما إذا كانت نية كل تعليمات مدرجة تتعلق بمهام المستخدم. ثانياً، تعتمد الدفاعات المستندة إلى التدريب على مجموعة صغيرة من القوالب المعروفة، مما يجعلها غير قادرة على التكيف مع استراتيجيات هجوم جديدة.

لمعالجة هذه الثغرات، تم تقديم تقنية RETA، التي تعتمد على التفكير المنطقي للتأكد من توافق القرارات الدفاعية مع متطلبات مهام المستخدم. في كل مرحلة من مراحل تنفيذ الأداة، يقوم المدافع بالتحقق من أن أفعاله تتماشى مع مهام المستخدم.

باستخدام تقنية القيادة الحمراء (Red-Teaming)، ينشئ المهاجم المحاكي بيانات تدريب عدائية ويكسب مكافآت بتنوع التعلم، مما يحقق تغطية واسعة لاستراتيجيات إعادة الصياغة. بفضل هذا التكامل، تسمح RETA بالتحسين من خلال التعلم المعزز متعدد الأهداف، مما يؤدي إلى تحقيق توازن أفضل بين الأمان والكفاءة.

في اختبارات ضد ستة هجمات تكيفية، استطاعت RETA الحفاظ على معدل نجاح كل هجوم تحت 10%، مع معدل نجاح متوسط بلغ 2.92% و3.75% على نموذجي الهدف، مع المحافظة على معظم الكفاءة تحت الهجوم وعند المدخلات النظيفة. تُظهر هذه النتائج وعدًا كبيرًا لمستقبل الدفاع ضد هجمات الذكاء الاصطناعي المتطورة.

ما هي آرائكم حول هذه التقنية الجديدة؟ هل تعتقدون أنها ستكون خطوة مهمة نحو أمان أكبر في أنظمة الذكاء الاصطناعي؟ شاركونا في التعليقات.