في عالم الذكاء الاصطناعي، تبرز أهمية تقييم الأمان لا سيما عند التعامل مع نماذج اللغات الضخمة (Large Language Models). فمع التحسينات التلقائية في الأساليب المستخدمة، لا تزال العديد من الطرق تقاوم التحديات نتيجة اعتماده على استراتيجيات ثابتة أو بحث عشوائي، ما يجعلها عرضة لفشل الدفاعات المتقدمة.
ولمعالجة هذه القضايا، تم تقديم مشروع "ميتس" (Metis) الذي يعيد صياغة عملية اختراق النماذج بشكل مبتكر، حيث يستفيد من نموذج عملية اتخاذ القرار الجزئي القابل للملاحظة (Partially Observable Markov Decision Process) لتعزيز الفهم العميق للدفاعات. من خلال حلقة تعلم ذاتية متطورة، يقوم ميتس بتشخيص أسباب نجاح دفاعات النماذج، مستفيدًا من تغذية راجعة منظمة كأداة لتحسين الاستراتيجيات.
تظهر الدراسات التقييمية أن ميتس يحقق معدل نجاح في الهجمات يصل إلى 89.2%، مما يجعله يتفوق على طرق مقارنة أخرى، حتى في النماذج الأكثر مقاومة من أمثال O1 وGPT-5-chat، حيث استمرت فعاليته بمعدلات 76.0% و78.0% على التوالي. بفضل تحليل الأوضاع، نجح ميتس في تخفيض تكاليف التفاعل بمعدل متوسط يصل إلى 8.2 مرة، وقد يصل في بعض الحالات إلى 11.4 مرة.
يكشف التحليل عن حاجة ملحة لتطوير دفاعات جيل جديد قادرة على التكيف مع أساليب التفكير التي ستخوض معركة الأمان خلال عملية الاستنتاج، مما يثير تساؤلات مهمة حول المستقبل وعالم الدفاعات في الذكاء الاصطناعي.
ميتس: ثورة في اختراق نماذج اللغات الضخمة باستخدام استراتيجية التعلم الذاتي
يكشف مشروع ميتس عن تقنيات جديدة لاختراق نماذج اللغات الضخمة (LLMs) باستخدام منهجيات مبتكرة لتقييم الأمان. النتائج تشير إلى فعالية مذهلة في اختراق النماذج، مما يطرح تساؤلات حول ضرورة تعزيز الدفاعات الحالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
