في عالم الذكاء الاصطناعي، يتزايد الاهتمام بفهم كيفية تفاعل نماذج اللغات الضخمة (Large Language Models) مع مختلف اللغات، حيث تُظهر الأبحاث أن سلامة هذه النماذج تتدهور بشكل ملحوظ في اللغات غير الإنجليزية. وقد استندت التقييمات التقليدية إلى معدل نجاح اختراق السلامة (Jailbreak Success Rate - JSR)، وهو ما يؤدي إلى تداخل عوامل متعددة تحدد السلامة، مما يحجب الأسباب المحددة لفشل السلامة.
لذا، قام الباحثون بتقديم نموذج للمتغيرات الكامنة، ونظام نظرية استجابة العناصر متعددة المجموعات (Multi-Group Item Response Theory - IRT)، الذي يفصل عوامل السلامة مثل قوة السلامة المستقلة عن اللغة ($\theta$) وصعوبة التلقيمات (prompts) الذاتية ($\beta$) وصعوبة المعالجة اللغوية العالمية ($\gamma$) وفجوة السلامة عبر اللغات المحددة بالتلقيمات ($\tau$).
استخدم الباحثون مجموعة بيانات MultiJail لتقييم قوة السلامة لـ 61 تكوينًا من نماذج مختلفة عبر 5 عائلات نماذج مغلقة و10 لغات ذات موارد متفاوتة، حيث تم تجميع قاعدة بيانات تضم 1.9 مليون صف.
أظهرت تحليل العوامل الاستكشافية أن السلامة في الغالب أحادية البعد، حيث ترفض النماذج أنواع الأذى المختلفة من خلال آلية مشتركة. وعلى الرغم من الاتجاه المتوقع بأن السلامة تتدهور بشكل رئيسي في اللغات ذات الموارد المنخفضة، فقد كانت هناك 22 تكوينًا من النماذج أكثر عرضة للخطر في اللغة الإنجليزية مقارنة باللغات ذات الموارد المنخفضة.
كما تنتج اللغات ذات الموارد المنخفضة ردوداً أكثر عدم اليقين (entropy عالية) بالمقارنة مع اللغات ذات الموارد العالية. كما تتجمع التلقيمات العالية في ($\tau$) في فئات الأذى الجسدي مثل السرقة والأسلحة. ورغم أن جودة الترجمة العالمية تظهر ارتباطاً منخفضاً بــ ($\tau$)، فإن الأخطاء الشديدة في الترجمة تؤدي إلى انحرافات ذات تحيز عالٍ، كما تم التحقق منها من قبل الناطقين الأصليين.
تسهم التباينات الثقافية ومطابقة المفاهيم أيضًا في ($\tau$). في التحقق التنبئي، يحقق إطار نظرية الاستجابة العنصرية أداءً ممتازًا ($\mathrm{AUC} = 0.940$)، متفوقاً على المعايير البسيطة في التنبؤ برفض التلقيمات غير الآمنة. يكشف إطار العمل هذا عن ضعف مفاهيم اللغة التي تخفيها قياسات الأداء، مما يمكن من تقييم سلامة متعدد اللغات بطريقة أكثر إنصافًا وتحسينات مستهدفة في بناء قواعد البيانات.
لماذا تتدهور سلامة نماذج الذكاء الاصطناعي عبر اللغات؟ اكتشافات جديدة تكشف المستور!
استكشاف مثير لتدهور سلامة نماذج اللغات الضخمة (Large Language Models) في اللغات غير الإنجليزية. دراسة جديدة تكشف عن عوامل متعددة تؤثر على سلامة النماذج وكيفية تعزيزها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
