في عالم الذكاء الاصطناعي، حيث أصبحت نماذج اللغات الضخمة (Large Language Models) تسند إلى خدمات متعددة مثل Gmail وSalesforce وJira، يظهر تحدٍ جديد يتطلب منا الوقوف والتفكير. تزايدت المخاوف من تقنيات التلاعب غير المباشر التي يمكن أن تهدد فعالية هذه النماذج.

ولمعالجة هذه الثغرات، تم تقديم AGENTREDBENCH، وهو معيار ديناميكي يهدف إلى تحسين الأمان في هذه النماذج. يعرض هذا المعيار 215 سيناريو معقد من هجمات التفويض غير المحددة عبر 24 تكاملاً مؤسسيًا في تسعة مجالات وظيفية وخمسة أنواع من الهجمات.

هذه الدراسة أبرزت قدرة النماذج المختلفة في الكشف عن الهجمات، حيث تراوحت معدلات النجاح في الهجوم (Attack Success Rate - ASR) من 32% لنموذج Claude Sonnet 4.6 إلى 81% لنموذج Gemini 3 Flash.

إضافةً إلى ذلك، تم إطلاق نموذج AGENTREDGUARD، الذي تم تدريبه على بيانات متنوعة استجابةً لأدوات هجوم، والذي أظهر قدرة مذهلة في تقليل معدل نجاح الهجمات من 69.9% إلى 2.4% بمعدل إيجابيات خاطئة منخفض يبلغ 0.37%.

هذا الإنجاز يعد نقلة نوعية في مجال الأمان الرقمي، مما يعزز القدرة على التصدي لمختلف أشكال التهديدات. يعمل الاختبار على تعزيز معلومات أمان نماذج اللغات الضخمة في الوقت الحقيقي، مما يتيح للمؤسسات مثل Google وOpenAI وAnthropic اتخاذ خطوات فعالة نحو حماية بياناتهم ومستثمريهم.

إنها خطوة واعدة نحو جعل بيئات العمل الآمنة أكثر استدامة، حيث يبقى الأمان أولوية قصوى في عصر يتزايد فيه الاعتماد على الذكاء الاصطناعي.