في عالم الذكاء الاصطناعي، تُعد نماذج اللغات الضخمة (LLMs) أدوات قوية، لكن كشف الباحثون عن وجود ثغرات في آليات أمانها يُسلّط الضوء على التحديات التي تواجهها. يتجلى هذا في دراسة جديدة تُظهر انعدام الموثوقية في تدابير السلامة عندما يتعلق الأمر باللغات ذات الموارد القليلة والتبديلات اللغوية.

قدمت الدراسة، التي جرت بواسطة تقنية جديدة تُعرف بـ STEER (Safety Targeted Embedding Exploit via Refinement)، طريقة فعّالة لاستكشاف الكلمات الرئيسية التي تؤثر على قدرة النموذج في الرفض والاستجابة بشكل غير آمن. من خلال استخدام هجوم مبني على التوجيه (gradient-guided attack)، تمكن الباحثون من تحويل هذه الكلمات إلى لغات أقل استخدامًا، مما ساعد في تقليل الرفض مع الحفاظ على النية الضارة.

تظهر النتائج المثيرة للاهتمام أن تقنية STEER كانت فعالة للغاية، حيث حققت معدلات نجاح تصل إلى 93% في تقييم JailbreakBench و96.7% في AdvBench، متجاوزة الطرق المتعارف عليها مثل التبديل العشوائي للكود والتقنية المعروفة باسم Greedy Coordinate Gradient (GCG).

والأكثر إثارة هو انتقال هذه النتائج إلى النموذج GPT-4o-mini، حيث سجل 35.5% من نجاح الهجوم بدون الحاجة للوصول المباشر إلى النموذج المستهدف، مما يبرز ضعف الأمان كفكرة ليست محصورة في بنية معينة.

تشير هذه النتائج إلى ضرورة توسيع استراتيجيات الأمان لتشمل جميع اللغات وتقنيات التبديل، مما يضمن أن تدابير الأمان لا تعتمد فقط على البيانات الإنجليزية. إذ يتطلب تحسين الأمان متعدد اللغات تغطية أوسع خلال عمليات المحاذاة ووجود آليات تكشف عن الإدخالات خارج التوزيع.

في نهاية المطاف، يتبين أن الغفلة عن هذه الجوانب قد تؤدي إلى مخاطر يتم تجاهلها، مما يدعو إلى إجراء تحسينات مستدامة وشاملة في الأنظمة اللغوية المتعددة.