لماذا تتدهور سلامة نماذج الذكاء الاصطناعي عبر اللغات؟ اكتشافات جديدة تكشف المستور!

Q: ما هو موضوع مقال "لماذا تتدهور سلامة نماذج الذكاء الاصطناعي عبر اللغات؟ اكتشافات جديدة تكشف المستور!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "لماذا تتدهور سلامة نماذج الذكاء الاصطناعي عبر اللغات؟ اكتشافات جديدة تكشف المستور!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي، يتزايد الاهتمام بفهم كيفية تفاعل نماذج اللغات الضخمة (Large Language Models) مع مختلف اللغات، حيث تُظهر الأبحاث أن سلامة هذه النماذج تتدهور بشكل ملحوظ في اللغات غير الإنجليزية. وقد استندت التقييمات التقليدية إلى معدل نجاح اختراق السلامة (Jailbreak Success Rate - JSR)، وهو ما يؤدي إلى تداخل عوامل متعددة تحدد السلامة، مما يحجب الأسباب المحددة لفشل السلامة.

لذا، قام الباحثون بتقديم نموذج للمتغيرات الكامنة، ونظام نظرية استجابة العناصر متعددة المجموعات (Multi-Group Item Response Theory - IRT)، الذي يفصل عوامل السلامة مثل قوة السلامة المستقلة عن اللغة ($\theta$) وصعوبة التلقيمات (prompts) الذاتية ($\beta$) وصعوبة المعالجة اللغوية العالمية ($\gamma$) وفجوة السلامة عبر اللغات المحددة بالتلقيمات ($\tau$).

استخدم الباحثون مجموعة بيانات MultiJail لتقييم قوة السلامة لـ 61 تكوينًا من نماذج مختلفة عبر 5 عائلات نماذج مغلقة و10 لغات ذات موارد متفاوتة، حيث تم تجميع قاعدة بيانات تضم 1.9 مليون صف.

أظهرت تحليل العوامل الاستكشافية أن السلامة في الغالب أحادية البعد، حيث ترفض النماذج أنواع الأذى المختلفة من خلال آلية مشتركة. وعلى الرغم من الاتجاه المتوقع بأن السلامة تتدهور بشكل رئيسي في اللغات ذات الموارد المنخفضة، فقد كانت هناك 22 تكوينًا من النماذج أكثر عرضة للخطر في اللغة الإنجليزية مقارنة باللغات ذات الموارد المنخفضة.

كما تنتج اللغات ذات الموارد المنخفضة ردوداً أكثر عدم اليقين (entropy عالية) بالمقارنة مع اللغات ذات الموارد العالية. كما تتجمع التلقيمات العالية في ($\tau$) في فئات الأذى الجسدي مثل السرقة والأسلحة. ورغم أن جودة الترجمة العالمية تظهر ارتباطاً منخفضاً بــ ($\tau$)، فإن الأخطاء الشديدة في الترجمة تؤدي إلى انحرافات ذات تحيز عالٍ، كما تم التحقق منها من قبل الناطقين الأصليين.

تسهم التباينات الثقافية ومطابقة المفاهيم أيضًا في ($\tau$). في التحقق التنبئي، يحقق إطار نظرية الاستجابة العنصرية أداءً ممتازًا ($\mathrm{AUC} = 0.940$)، متفوقاً على المعايير البسيطة في التنبؤ برفض التلقيمات غير الآمنة. يكشف إطار العمل هذا عن ضعف مفاهيم اللغة التي تخفيها قياسات الأداء، مما يمكن من تقييم سلامة متعدد اللغات بطريقة أكثر إنصافًا وتحسينات مستهدفة في بناء قواعد البيانات.

لماذا تتدهور سلامة نماذج الذكاء الاصطناعي عبر اللغات؟ اكتشافات جديدة تكشف المستور!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

من نماذج اللغات الضخمة إلى الهلوسات: دليلك الشامل لأهم مصطلحات الذكاء الاصطناعي!

ثورة جديدة في الذكاء الاصطناعي: Salesforce تطلق Slackbot المتطور لمنافسة Microsoft وGoogle في عالم الأعمال

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!