في خطوة جريئة ومميزة، أطلق باحثون نموذجًا جديدًا يُدعى Babel، يكشف عن ثغرات أمان هائلة موجودة في نماذج اللغة الضخمة (LLMs). على الرغم من الجهود المتواصلة لتأمين هذه النماذج، إلا أنها لا تزال عرضة لهجمات التخطي، مما يثير تساؤلات جدية حول موثوقيتها.

الأساليب الحالية المستخدمة في هذا المجال غالبًا ما تعتمد على قوالب حدسية أو تجارب شاملة، مما يفتقر إلى الفهم العميق للآليات الداخلية وكفاءة الاستعلام. وهنا يأتي دور نموذج Babel ليكشف عن عيب جوهري في آليات الأمان الخاصة بنماذج اللغة الضخمة، حيث يعتمد التأمين على مجموعة صغيرة من رؤوس الانتباه الموزعة بشكل فضفاض. هذا يعني أن معظم الفضاء التمثيلي يظل تحت المراقبة الضعيفة.

لتأكيد هذا الاكتشاف، طور الباحثون نموذجًا رياضيًا يكافح لفهم الحدود الدقيقة بين التعتيم الفعال للسياقات النصية وشرح السلوكيات المسجلة في سياق هجمات التخطي.

حسب هذا النموذج، تم تقديم تخطيط جديد يُدعى Babel، وهو إطار هجوم أسود الصندوق يهدف إلى استغلال الفجوة الموجودة في الأمان من خلال عينة شاملة من أساليب التعتيم، مما يضمن تحقيق هجمات تخطي موثوقة وعالية النجاح دون الحاجة للوصول إلى البيانات الداخلية للنموذج.

أظهرت التقييمات الشاملة على نماذج تجارية متقدمة أن Babel قد حقق نسب نجاح غير مسبوقة في الهجمات. على وجه الخصوص، زادت نسبة نجاح الهجمات على نموذج GPT-4o من 41.33% إلى 82.67%، وعلى Claude-3-5-haiku من 38.33% إلى 78.33%، وذلك في متوسط 40 استعلامًا. هذا التطور ليس فقط يوضح التحديات المستمرة في مجال أمان الذكاء الاصطناعي، بل يقدم أيضًا منهجية فاعلة للبحوث المتعلقة بأمان نماذج اللغة الضخمة.

ما رأيكم في هذه الثورة في عالم أمن الذكاء الاصطناعي؟ هل تعتقدون أن نماذج الذكاء الاصطناعي بحاجة لتعزيز الأمان؟ شاركونا في التعليقات.