في عالم الذكاء الاصطناعي المتطور، تبرز تقنية جديدة تُعرف بـ FlipAttack، التي تكشف عن ثغرات نماذج اللغة الضخمة (LLMs) من خلال أسلوب مبتكر يعتمد على الهجوم "العبور". في ورقة بحثية حديثة، تم تسليط الضوء على طبيعة نماذج اللغة autoregressive والتي تجعلها تفهم النص من اليسار إلى اليمين. هذا الأمر يجعلها تجد صعوبةً عندما يُضاف ضجيج إلى الجانب الأيسر من النص.

لذا، قام الباحثون بابتكار طريقة متميزة لتغطية النمط الضار عن طريق إنشاء ضجيج ذي جانب أيسر يعتمد فقط على المحتويات نفسها. هذا الأمر أدى إلى تطوير أربع طرق لتنفيذ "القيام بالتحويل". ومن ثم، تم اختبار قدرة نماذج اللغة على أداء مهمة تحويل النص وتطوير أربع نسخ إرشادية، مما يُساعد هذه النماذج على فهم وإظهار سلوكيات ضارة بدقة.

تم إثبات فعالية FlipAttack في الاختبارات التي شملت 8 نماذج لغة، حيث حققت نسبة نجاح تُقارب 98% في اختراق GPT-4o ونحو 98% في تجاوز حواجز 5 نماذج حرس بشكل متوسط. يمثل هذا التطور في الاجتياح السلس لمجموعة واسعة من نماذج اللغة خطوة نوعية في مجال الأمن السيبراني.

تشير هذه النتائج إلى انفتاح مجال الذكاء الاصطناعي على تحسينات كبيرة، ونحث جميع المهتمين على متابعة هذه التطورات وللتفكير في كيفية حماية الأنظمة الذكية من مثل هذه الهجمات في المستقبل.