في عالم الذكاء الاصطناعي، تواجه نماذج اللغة الكبيرة (LLMs) تحديات جسيمة تتعلق بالأمان حتى عند تدريبها على مجموعات بيانات تُعتبر غير ضارة. فبينما يمكن أن تُحسّن العملية التدريبية مهارات النموذج، إلا أنها قد تؤدي إلى تدهور في قدراته الأمنية، مما يثير قلق المطورين والباحثين. هنا يأتي دور مشروع DataShield، الذي يعد ثورة في هذا المجال.
هذا الابتكار يعمل على تحديد العينات التي قد تُخِل بالأمان بطريقة فعالة وبأقل تكلفة حوسبية، وهو ما يعالج مشكلة التعرف على البيانات النادرة التي تُعتَبَر مصدر خطر. يعتمد DataShield على فكرة رئيسية وهي أن التدريب على بيانات غير ضارة يعزز التوافق العام لنماذج اللغة.
يتضمن DataShield ثلاث مكونات رئيسية:
1. **استخراج متجهات التوافق**: هذه المرحلة تلتقط ميول سلوك التوافق للنموذج.
2. **مؤشر التوافق الواعي (CAS)**: يحدد بشكل تلقائي الطبقة الأكثر أهمية من حيث الأمان.
3. **تصفية العينات المُهدِّدة للأمان**: تقوم هذه التقنية بقياس التغير في بيانات التدريب بالنسبة لاتجاه التوافق.
أثبتت التجارب الواسعة على نماذج Llama3-8B وLlama3.1-8B وQwen2.5-7B باستخدام مجموعات بيانات Alpaca وDolly فعالية هذه الطرق في تحديد العيّنات عالية ومتوسطة المخاطر. كما لوحظ أن الأسئلة المفتوحة أكثر عرضة لتسبب تدهور الأمان، وأن الردود المرتبطة بها عمومًا تميل إلى أن تكون أطول.
نسعى من خلال هذا العمل إلى تقديم رؤى جديدة حول أساليب الدفاع المعتمدة على البيانات. للمزيد من المعلومات، يمكن زيارة كود المصدر هنا: DataShield Code Repository.