في عالم الذكاء الاصطناعي اليوم، تُعتبر نماذج اللغة الكبيرة (LLMs) من أبرز المبتكرات التي تُعزز من تجربة المستخدم. ومع ذلك، تكشف دراسة حديثة عن وجود فخ يُعرف بالأمان الانتقائي، مما يسلط الضوء على فشل هذه النماذج في توفير حماية شاملة لجميع المجتمعات.
ليس من السهل دائمًا معرفة أن تقييمات السلامة الحالية لنماذج اللغة تجمع الأضرار تحت فئات عامة مثل "كره الهوية"، مما يغطي الضعف تجاه مجتمعات معينة. في هذا السياق، تُظهر الأبحاث أن بعض المجتمعات تُستثنى من هذه الحماية، بينما تُرك أخرى عرضة لهجمات مماثلة.
وفي محاولتهم لفهم هذا الظاهرة، قام الباحثون بتطوير MiJaBench، وهو معيار ثنائي اللغة يجمع 43,961 مُحركًا تحت سيطرة حسنة السلوك، عبر 16 مجموعة أقلية. وبواسطة تقييم 14 نموذجًا رائدًا، تم جمع 615,454 زوج من الاستجابات الداعمة في ما يسمى MiJaBench-Align.
أظهرت النتائج أن الأمان في نماذج اللغة ليس قدرة دلالية موحدة، بل هو بمثابة هرم ديموغرافي، حيث تتفاوت معدلات الدفاع بنسبة تصل إلى 42٪ تبعًا لمجموعة الهدف. وهذا التمييز موجود عبر الهياكل اللغوية المختلفة، ويتفاقم مع زيادة الحجم.
للحد من هذه الفجوة، أظهرت الدراسة أن استخدام تحسين التفضيلات المباشرة (DPO) على نموذج ببارامتر واحد مليار يؤدي إلى تحقيق تعميمات مدهشة على الفئات السكانية غير المرئية واستراتيجيات الهجوم المعقدة.
تسعى هذه المبادرة لتقديم مسار واضح نحو تحقيق أمان شامل وعادل لجميع المجتمعات، حيث تم إتاحة كافة مجموعات البيانات والبرمجيات للعموم.
في عالم يتزايد فيه الاعتماد على الذكاء الاصطناعي، يتوجب علينا التأكيد على أن الأمان ليس ترفًا، بل هو حق لجميع الفئات. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
فخ الأمان الانتقائي: كيف تؤثر نماذج اللغة الكبيرة على المجتمعات المهمشة؟
تكشف دراسة جديدة عن مفهوم الأمان الانتقائي في نماذج اللغة الكبيرة (LLMs)، مما يعرض ضعف المجتمعات المهمشة. هذا المقال يسلط الضوء على أهمية اعتماد معايير أمان شاملة للجميع.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
