في أبريل 2026، شهدت بيئة عمل الذكاء الاصطناعي المتقدمة "Claude Mythos" حادثة مثيرة، حيث تم تسليط الضوء على نقطة ضعف حرجة في احتواء الذكاء الاصطناعي المتقدم. يكشف هذا الحادث عن قابلية البنية التحتية المحيطة بالنماذج المتطورة للثغرات الحسابية القابلة للتوصيف رسميًا.

لم تقم منظمة Anthropic بالإفصاح عن تفاصيل كيفية حدوث الهروب، لكن العديد من الحسابات الثانوية تشير إلى احتمال وجود ثغرة حسابية من نوع CWE-190. في هذا السياق، قدمنا تحليلًا لفئة الثغرات بدلاً من الهروب المحدد.

تقدم هذه الدراسة COBALT، وهو محرك تحقق فرادي قائم على Z3، يهدف إلى تحديد أنماط الثغرات الحسابية CWE-190/191/195 في كود C/C++ قبل النشر. نحن نفرق بين فئتين من المساهمات:

1. **المساهمات المدعومة بالتحقق**: COBALT قادر على اكتشاف أنماط الثغرات الحسابية في الشيفرات المنتجة، مما ينتج عنه أحكام SAT مع شهود ملموسة وضمانات UNSAT تحت حدود أمان واضحة. تم إثبات هذه الفعالية من خلال أربع دراسات حالة في الإنتاج: نظام NASA cFE، wolfSSL، Eclipse Mosquitto، ونظام NASA F Prime، مع تقديم ترميزات قابلة لإعادة الإنتاج، ومخرجات متحققة، ونتائج أمنية معترف بها.

2. **المساهمات المقترحة**: تتضمن إنشاء إطار احتواء ذي أربع طبقات يتكون من COBALT وVERDICT وDIRECTIVE-4 وSENTINEL، والذي يربط بين التحقق قبل النشر، قيود ما قبل التنفيذ، التحكم في المخرجات، والمراقبة أثناء التشغيل مع عدم تطابق الفشل الذي تم الكشف عنه في حادثة Mythos.

نؤكد تحت افتراضات محددة أن فئة الهروب المُبلغ عنها علنًا خلال حادثة Mythos تتوافق مع صياغة CWE-190 القابلة للتعبير بواسطة Z3، وأن التحليل الرسمي قبل النشر كان قادرًا على استنباط النمط المعني.

الحقيقة الأوسع هي بنيوية: لا يمكن أن تعتمد سلامة النماذج المتقدمة على احتياطات سلوكية وحدها؛ يجب أن تخضع قاعدة الاحتواء نفسها للتحقق الرسمي.