في وقت تتزايد فيه المخاوف من الأضرار التي قد يتسبب بها الذكاء الاصطناعي (AI) الضار، أصبح من الصعب تجاهل هذه القضايا. لا تقتصر هذه المخاوف على الأفلام الهوليوودية بل أصبحت واقعًا ملموسًا مع تطور نماذج الذكاء الاصطناعي القوية مثل Claude Mythos، وانتشار أنظمة الوكلاء مثل OpenClaw بسرعة. في هذا السياق، تمتاز دراسة حديثة بعرض مفهوم KILLBENCH، وهو معيار يُستخدم لتقييم فعالية آلية إحباط الذكاء الاصطناعي الضار من خلال استخدام إشارة خارجية فقط.

KILLBENCH يركز على تقييم الوكلاء على الويب، باعتبارها المجال الأكثر انتشارًا للوكالات. يقوم هذا المعيار بتقييم مجموعة متنوعة من طرق "kill switch" التي تهدف إلى توقيف وكيل يعمل بشكل ضار دون الحاجة إلى الوصول إلى المعلمات الداخلية أو أنظمة الذكاء الاصطناعي الضارة المحيطة، بل يعتمد فقط على المدخلات الخارجية.

يتضمن KILLBENCH تكوينات أربعة لوكلاء الذكاء الاصطناعي الضارة (بما في ذلك وكيل نماذج لغوية غير مقيدة)، بالإضافة إلى ثمانية سيناريوهات ضارة ونماذج ضارة تتألف من 10 أنماط مختلفة من "jailbreak". كما تقدم الدراسة أربع طرق دفاعية لآلية إحباط الذكاء الاصطناعي الخارجي وتقييمها باستخدام نماذج مثل Grok-4.3، GPT-5.2، Gemma4 و Qwen3.6.

من خلال KILLBENCH، يتم تقديم أداة تجريبية نحو تقييم مدى إمكانية استخدام آليات إيقاف الذكاء الاصطناعي كخط دفاعي ضد الأنظمة الضارة، ما يساهم في دراسة مصطلح "تصحيح الذكاء الاصطناعي" وتوفير بيئة أكثر أمانًا للمستخدمين. في نهاية المطاف، هذه التطورات تشير إلى أهمية الاستعداد لمواجهة التحديات والخطر المحتمل من الذكاء الاصطناعي.

ما رأيكم في إمكانية السيطرة على الذكاء الاصطناعي الضار؟ شاركونا في التعليقات!