في دراسة حديثة نشرت على منصة arXiv، تم تقديم أداة مفتوحة المصدر تُسمى **swarm-attack**، والتي تعتمد على نظام من الوكلاء الذكيين الخفيفين الذين يتعاونون عبر ذاكرة مشتركة واستكشاف متوازي. يهدف هذا الإطار إلى اختبار الأمان من خلال تنفيذ هجمات مُنسقة على نماذج الذكاء الاصطناعي المتطورة.
أظهرت التجارب أن القدرة على تجاوز الأمان في النماذج المتطورة ليست مستحيلة، بل يمكن تحقيقها بتكاليف شبه معدومة باستخدام الأجهزة المتاحة ونماذج مفتوحة المصدر.
في التجربة الأولى، استخدم الباحثون خمسة نماذج تضم كل منها 1.2 مليار معلمة لتنفيذ 225 هجمة على النموذجين الشهيرين **GPT-4o** و**Claude Sonnet-4**. وحققوا معدل ضرر فعّال قدره 45.8% ضد **GPT-4o**، مع تسجيل 49 انتهاكًا شديد الخطورة، بينما كان معدل الضرر ضد **Claude Sonnet-4** 0% رغم تحقيقهم نجاحًا تقنيًا بنسبة 40%.
أما في التجربة الثانية، تم تحليل الشيفرة المصدرية وتجريب فحص ثغرات على تطبيق برمجي ضعيف يحتوي على تسع نقاط ضعف معروفة. باستخدام مجموعة من التقنيات تشمل تجميع مصادر الاستغلال وقاعدة بيانات للكشف عن الأنماط، تمكن النموذج من الكشف عن 9 ثغرات بالكامل في حوالي أربع دقائق فقط على حاسوب ماك عادي.
يُظهر هذا البحث ضرورة إعادة التفكير في سبل أمان أنظمة الذكاء الاصطناعي، حيث أن الأساليب التقليدية قد لا تكون كافية في مواجهة تطورات مثل **swarm-attack**. يتطلب تأمين هذه الأنظمة الابتكار المستمر في البرمجيات والهياكل المؤسسية.
ما رأيكم في هذا التطور المثير؟ هل تعتقدون أن هناك حاجة لتغيير سياسات أمن الذكاء الاصطناعي؟ شاركونا في التعليقات!
اختراقات الذكاء الاصطناعي: كيف يمكن لنموذج منخفض التكلفة تجاوز الأمان؟
يستعرض البحث الجديد أداة اختبار مفتوحة المصدر تُعرف باسم swarm-attack، والتي تمكن مجموعة من عوامل الذكاء الاصطناعي من اختراق أنظمة الذكاء الاصطناعي الشهيرة. يُظهر هذا الابتكار قدرة على اكتشاف الثغرات بمجهود بسيط وبتكاليف منخفضة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
