في عالم الذكاء الاصطناعي، يتزايد الاهتمام بفهم كيفية [تفاعل](/tag/تفاعل) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) مع مختلف اللغات، حيث تُظهر [الأبحاث](/tag/الأبحاث) أن [سلامة](/tag/سلامة) هذه [النماذج](/tag/النماذج) تتدهور بشكل ملحوظ في [اللغات](/tag/اللغات) غير الإنجليزية. وقد استندت [التقييمات](/tag/التقييمات) التقليدية إلى معدل [نجاح](/tag/نجاح) [اختراق](/tag/اختراق) [السلامة](/tag/السلامة) (Jailbreak Success Rate - JSR)، وهو ما يؤدي إلى تداخل عوامل متعددة تحدد السلامة، مما يحجب الأسباب المحددة لفشل [السلامة](/tag/السلامة).

لذا، قام الباحثون بتقديم [نموذج](/tag/نموذج) للمتغيرات الكامنة، ونظام [نظرية](/tag/نظرية) استجابة العناصر متعددة [المجموعات](/tag/المجموعات) (Multi-Group Item Response Theory - IRT)، الذي يفصل عوامل [السلامة](/tag/السلامة) مثل [قوة](/tag/قوة) [السلامة](/tag/السلامة) المستقلة عن [اللغة](/tag/اللغة) ($\theta$) وصعوبة التلقيمات (prompts) الذاتية ($\beta$) وصعوبة المعالجة اللغوية العالمية ($\gamma$) وفجوة [السلامة](/tag/السلامة) [عبر](/tag/عبر) [اللغات](/tag/اللغات) المحددة بالتلقيمات ($\tau$).

استخدم الباحثون [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) MultiJail لتقييم [قوة](/tag/قوة) [السلامة](/tag/السلامة) لـ 61 تكوينًا من [نماذج](/tag/نماذج) مختلفة [عبر](/tag/عبر) 5 [عائلات](/tag/عائلات) [نماذج](/tag/نماذج) مغلقة و10 [لغات](/tag/لغات) ذات موارد متفاوتة، حيث تم تجميع [قاعدة بيانات](/tag/قاعدة-[بيانات](/tag/بيانات)) تضم 1.9 مليون صف.

أظهرت [تحليل](/tag/تحليل) العوامل الاستكشافية أن [السلامة](/tag/السلامة) في الغالب أحادية البعد، حيث ترفض [النماذج](/tag/النماذج) أنواع الأذى المختلفة من خلال آلية مشتركة. وعلى الرغم من الاتجاه المتوقع بأن [السلامة](/tag/السلامة) تتدهور بشكل رئيسي في [اللغات](/tag/اللغات) ذات الموارد المنخفضة، فقد كانت هناك 22 تكوينًا من [النماذج](/tag/النماذج) أكثر عرضة للخطر في [اللغة الإنجليزية](/tag/[اللغة](/tag/اللغة)-الإنجليزية) مقارنة باللغات ذات الموارد المنخفضة.

كما تنتج [اللغات](/tag/اللغات) ذات الموارد المنخفضة ردوداً أكثر [عدم اليقين](/tag/عدم-اليقين) (entropy عالية) بالمقارنة مع [اللغات](/tag/اللغات) ذات الموارد العالية. كما تتجمع التلقيمات العالية في ($\tau$) في فئات الأذى الجسدي مثل السرقة والأسلحة. ورغم أن جودة [الترجمة](/tag/الترجمة) العالمية تظهر ارتباطاً منخفضاً بــ ($\tau$)، فإن [الأخطاء](/tag/الأخطاء) الشديدة في [الترجمة](/tag/الترجمة) تؤدي إلى [انحرافات](/tag/انحرافات) ذات [تحيز](/tag/تحيز) عالٍ، كما تم [التحقق](/tag/التحقق) منها من قبل الناطقين الأصليين.

تسهم التباينات الثقافية ومطابقة المفاهيم أيضًا في ($\tau$). في [التحقق](/tag/التحقق) التنبئي، يحقق إطار [نظرية](/tag/نظرية) الاستجابة العنصرية أداءً ممتازًا ($\mathrm{AUC} = 0.940$)، متفوقاً على [المعايير](/tag/المعايير) البسيطة في [التنبؤ](/tag/التنبؤ) برفض التلقيمات غير الآمنة. يكشف [إطار العمل](/tag/إطار-العمل) هذا عن ضعف [مفاهيم](/tag/مفاهيم) [اللغة](/tag/اللغة) التي تخفيها قياسات الأداء، مما يمكن من [تقييم](/tag/تقييم) [سلامة](/tag/سلامة) متعدد [اللغات](/tag/اللغات) بطريقة أكثر إنصافًا وتحسينات مستهدفة في [بناء](/tag/بناء) [قواعد البيانات](/tag/قواعد-[البيانات](/tag/البيانات)).