في عالم الذكاء الاصطناعي، يتزايد الاهتمام بفهم كيفية [تفاعل](/tag/تفاعل) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) مع مختلف اللغات، حيث تُظهر [الأبحاث](/tag/الأبحاث) أن [سلامة](/tag/سلامة) هذه [النماذج](/tag/النماذج) تتدهور بشكل ملحوظ في [اللغات](/tag/اللغات) غير الإنجليزية. وقد استندت [التقييمات](/tag/التقييمات) التقليدية إلى معدل [نجاح](/tag/نجاح) [اختراق](/tag/اختراق) [السلامة](/tag/السلامة) (Jailbreak Success Rate - JSR)، وهو ما يؤدي إلى تداخل عوامل متعددة تحدد السلامة، مما يحجب الأسباب المحددة لفشل [السلامة](/tag/السلامة).
لذا، قام الباحثون بتقديم [نموذج](/tag/نموذج) للمتغيرات الكامنة، ونظام [نظرية](/tag/نظرية) استجابة العناصر متعددة [المجموعات](/tag/المجموعات) (Multi-Group Item Response Theory - IRT)، الذي يفصل عوامل [السلامة](/tag/السلامة) مثل [قوة](/tag/قوة) [السلامة](/tag/السلامة) المستقلة عن [اللغة](/tag/اللغة) ($\theta$) وصعوبة التلقيمات (prompts) الذاتية ($\beta$) وصعوبة المعالجة اللغوية العالمية ($\gamma$) وفجوة [السلامة](/tag/السلامة) [عبر](/tag/عبر) [اللغات](/tag/اللغات) المحددة بالتلقيمات ($\tau$).
استخدم الباحثون [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) MultiJail لتقييم [قوة](/tag/قوة) [السلامة](/tag/السلامة) لـ 61 تكوينًا من [نماذج](/tag/نماذج) مختلفة [عبر](/tag/عبر) 5 [عائلات](/tag/عائلات) [نماذج](/tag/نماذج) مغلقة و10 [لغات](/tag/لغات) ذات موارد متفاوتة، حيث تم تجميع [قاعدة بيانات](/tag/قاعدة-[بيانات](/tag/بيانات)) تضم 1.9 مليون صف.
أظهرت [تحليل](/tag/تحليل) العوامل الاستكشافية أن [السلامة](/tag/السلامة) في الغالب أحادية البعد، حيث ترفض [النماذج](/tag/النماذج) أنواع الأذى المختلفة من خلال آلية مشتركة. وعلى الرغم من الاتجاه المتوقع بأن [السلامة](/tag/السلامة) تتدهور بشكل رئيسي في [اللغات](/tag/اللغات) ذات الموارد المنخفضة، فقد كانت هناك 22 تكوينًا من [النماذج](/tag/النماذج) أكثر عرضة للخطر في [اللغة الإنجليزية](/tag/[اللغة](/tag/اللغة)-الإنجليزية) مقارنة باللغات ذات الموارد المنخفضة.
كما تنتج [اللغات](/tag/اللغات) ذات الموارد المنخفضة ردوداً أكثر [عدم اليقين](/tag/عدم-اليقين) (entropy عالية) بالمقارنة مع [اللغات](/tag/اللغات) ذات الموارد العالية. كما تتجمع التلقيمات العالية في ($\tau$) في فئات الأذى الجسدي مثل السرقة والأسلحة. ورغم أن جودة [الترجمة](/tag/الترجمة) العالمية تظهر ارتباطاً منخفضاً بــ ($\tau$)، فإن [الأخطاء](/tag/الأخطاء) الشديدة في [الترجمة](/tag/الترجمة) تؤدي إلى [انحرافات](/tag/انحرافات) ذات [تحيز](/tag/تحيز) عالٍ، كما تم [التحقق](/tag/التحقق) منها من قبل الناطقين الأصليين.
تسهم التباينات الثقافية ومطابقة المفاهيم أيضًا في ($\tau$). في [التحقق](/tag/التحقق) التنبئي، يحقق إطار [نظرية](/tag/نظرية) الاستجابة العنصرية أداءً ممتازًا ($\mathrm{AUC} = 0.940$)، متفوقاً على [المعايير](/tag/المعايير) البسيطة في [التنبؤ](/tag/التنبؤ) برفض التلقيمات غير الآمنة. يكشف [إطار العمل](/tag/إطار-العمل) هذا عن ضعف [مفاهيم](/tag/مفاهيم) [اللغة](/tag/اللغة) التي تخفيها قياسات الأداء، مما يمكن من [تقييم](/tag/تقييم) [سلامة](/tag/سلامة) متعدد [اللغات](/tag/اللغات) بطريقة أكثر إنصافًا وتحسينات مستهدفة في [بناء](/tag/بناء) [قواعد البيانات](/tag/قواعد-[البيانات](/tag/البيانات)).
لماذا تتدهور سلامة نماذج الذكاء الاصطناعي عبر اللغات؟ اكتشافات جديدة تكشف المستور!
استكشاف مثير لتدهور سلامة نماذج اللغات الضخمة (Large Language Models) في اللغات غير الإنجليزية. دراسة جديدة تكشف عن عوامل متعددة تؤثر على سلامة النماذج وكيفية تعزيزها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
