تُعد عملية تحسين النماذج اللغوية الكبيرة (Large Language Models) طريقة شائعة لتعزيز قدراتها في مهام محددة. لكن، وفقًا لدراسات سابقة، فإن هذا التحسن قد يأتي بتكاليف مخفية حيث تزداد ميل النماذج للاستجابة للمطالبات غير الآمنة، حتى عند استخدام بيانات غير عدائية.

في دراسة شاملة نُشرت مؤخرًا، تم استعراض تجارب متعددة اللغات باستخدام نماذج مثل Llama-3.2 وQwen3 وGemma-3، حيث تم تدريبها على بيانات غير عدائية مترجمة عبر تسع لغات. نتائج الدراسة تشير إلى أن النتائج المتعلقة بالسلامة حساسة للغاية لاختيار لغة التدريب ولغة التقييم، مع زيادة معدلات compliance للردود غير الآمنة بأربعة أضعاف في بعض الحالات.

يثبت التحليل أن التغيرات في السلامة ومتطلبات القدرة العامة غير مرتبطة بشكل مباشر، حيث تظهر اختلافات غير متساوية عبر اللغات والنماذج. كما أن التدريب باللغات غير الإنجليزية يمكن أن يؤدي إلى تغيرات داخلية أقل في التمثيلات مقارنةً بالإنجليزية، ولكن تلك التحولات قد تدفع النماذج إما إلى الامتثال المبالغ فيه أو الرفض.

لذا، فالتقييمات التي تعتمد فقط على الإنجليزية لا تقدم ضمانًا كافيًا للنشر الآمن. لتعزيز البحث في هذه النقاط العمياء المتعلقة بالسلامة عبر اللغات، تم إطلاق مجموعة بيانات Multilingual-Benign-Tune ومجموعة تقييم SORRY-Bench-Multilingual.