تعتبر نماذج اللغات الكبيرة (LLMs) واحدة من أبرز التطورات التكنولوجية التي سمحت بتحقيق تفاعلات شخصية متزايدة تلبي احتياجات المستخدمين ومعاييرهم. تعتمد هذه النماذج على تكييف أدائها مع تفضيلات المستخدمين وسياقاتهم وتاريخهم الطويل. ومع ذلك، فإن الآليات التي تعزز من إمكانية التخصيص هذه توسع من نطاق المخاطر الأمنية بطرق لم تتناولها الأدبيات بشكل شامل حتى الآن.

في محاولة لسد هذه الثغرة، نقدم لكم أول استعراض شامل يركز على السلامة في نماذج اللغات المخصصة. نقوم بتنظيم موضوع التخصيص عبر ثلاثة أبعاد رئيسية: تمثيل المستخدم، نموذج التخصيص، وطرق التقييم. كما نقدم تصنيفًا موحدًا لمخاطر السلامة المنبثقة عن نماذج اللغات المخصصة.

عند مستوى التمثيل، نحلل المخاطر الناتجة عن تنوع تمثيلات المستخدمين. وفيما يتعلق بنماذج التخصيص السائدة، نحدد الثغرات المرتبطة بأساليب مثل التنبيه، تعزيز الاسترجاع، تحسين المعلمات، التعلم التعزيزي، خلط الخبراء (Mixture-of-Experts)، وتقنيات متعددة الوسائط. بالإضافة إلى ذلك، نقدم استراتيجيات للتخفيف من هذه المخاطر عبر دورة حياة النموذج.

أيضًا، نسعى لتسليط الضوء على مخاطر السلامة التي لا ترتبط بنموذج محدد، والتي تظهر نتيجة للتكيف الشخصي. كما نقدم ملخصًا للبيانات المخصصة وطرق التقييم المستخدمة. من خلال دراسة حالة لروبوت OpenClaw، نقوم بتحليل اتجاهات النشر ضمن أنظمة العملاء الشخصية.

تظهر تحليلاتنا ثلاثة نقص هيكلية في الأبحاث الحالية: يتم تقييم السلامة بشكل غير متغير بالنسبة للمستخدم، تُحلل تقنيات التخصيص بصورة منفصلة بدلاً من النظر إلى تداخلها، ولا تستطيع أطر التقييم التقاط المخاطر طويلة المدى المتطورة.

من خلال فحص مشترك للتمثيلات الشخصية، ونماذج التخصيص، ومخاطر السلامة، ووسائل الدفاع، وطرق التقييم، نقدم إطارا موحدا لتطوير نماذج لغوية شخصية آمنة ونشير إلى توجهات رئيسية للبحث المستقبلي. ما هو رأيكم في هذه التوجهات؟ هل تعتقدون أن التخصيص يمكن أن يمثل مخاطر أكبر من الفوائد؟ شاركونا في التعليقات.