في عالم الذكاء الاصطناعي المتطور، تبرز نماذج اللغة الكبيرة (Large Language Models) كهيمنة في مجالات متعددة. ولكن في دراسة حديثة، تم تسليط الضوء على نماذج Fable 5 وOpus 4.8 من تطوير شركة Anthropic، حيث تم تقييم متانتها في مواجهة هجمات خبيثة.
الدراسة استخدمت إطار عمل HackAgent لفحص كيفية تصدي هذه النماذج لهجمات تشير إلى نوايا ضارة تصل إلى 7826 نية شريرة موزعة عبر عشرة فئات للضرر. وقد أنتجت التجارب مئات الآلاف من المحاولات، وجرى إعادة تقييم كل نجاح ي لوحظ بشكل مستقل من قِبل لجنة مكونة من ثلاثة نماذج تحكيم.
النتائج أظهرت أن كلا النموذجان، رغم قدرتهما على مقاومة الغالبية العظمى من الهجمات، إلا أن السطح المتبقي للتهديدات أكبر مما يُظهره الإطار العام. وبشكل خاص، كانت الهجمات التكيفية التي تم إجراؤها بتقنيات متطورة لها تأثيرات أكبر من الهجمات الثابتة، حيث تمكن البحث الأكثر تعقيداً (شجرة الهجمات) من اختراق Opus 4.8 في 11.5% من النوايا، بينما حلّت Fable 5 في أرقام أقل، وصلت إلى 6.1%.
ومع ذلك، بالرغم من هذه الأرقام المطمئنة، فقد أنتجت النماذج 1620 مخرجات مؤذية لنموذج Opus 4.8 و702 لنموذج Fable 5، مما يزيد من مخاوف حول فعالية الحماية المقدمة.
خلصت الدراسة إلى أن النماذج، حتى وإن كانت تعتبر من أفضل الخيارات المتاحة، تظل عرضة للاختراق عند التعرض لضغوط آلية مستمرة. فهل نحن مستعدون لتحمل التأثيرات المحتملة لهذه الثغرات؟!
تحدي الأمن: دراسة جديدة تكشف ثغرات خطيرة في نماذج الذكاء الاصطناعي Fable 5 وOpus 4.8
دراسة حديثة تكشف عن قدرة نماذج اللغة الكبيرة Fable 5 وOpus 4.8 على مقاومة هجمات معقدة، لكنها تشير إلى ثغرات خطيرة لا يمكن تجاهلها. النتائج تُظهر أن السلامة القضائية لهذه النماذج ليست كما تبدو.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
