في عالم تطور تقنيات الذكاء الاصطناعي، يعد أمان نماذج اللغات الكبيرة (Large Language Models) مصدر قلق متزايد. لقد أظهرت الدراسات أن تعديل نماذج الذكاء الاصطناعي ليكون لها سلوك متماشي مع المعايير الأمنية يمكن أن يؤدي إلى تدهور كبير في سلوك الرفض، مما يجعل هذه النماذج عرضة للاستخدام الضار. وللأسف، فإن كيفية تغير التمثيلات الهيكلية المعنية بالأمان أثناء عملية التعديل تظل غير مفهومة جيدًا.

في هذه الدراسة، تم التحقيق في الآليات التي تؤدي إلى تدهور التوافق من منظور مستوى التمثيل. وقد أظهر التحليل أن التعديل القياسي يؤدي إلى انحراف منهجي في التمثيلات الهيكلية المتعلقة بالأمان، مما يشوه الهيكل الهندسي لها، ويدخل تداخلًا بين تحسين المهام وميزات الأمان. هذه الآثار مجتمعة تزيد من الامتثال الضار للنموذج.

استجابة لهذه التحديات، تم تقديم REFUSALGUARD، وهو إطار عمل خاص بتعديل التمثيل، يهدف إلى الحفاظ على هيكل الأمان أثناء تكييف النموذج. تعتمد هذه الطريقة على تقييد التحديثات في فضاء التمثيل المخفي، مما يضمن ثبات المكونات الوسيطة المتعلقة بالأمان والسماح بتعلم مخصص بناءً على المهام في اتجاهات متكاملة.

تم تقييم REFUSALGUARD عبر عائلات نماذج متعددة، بما في ذلك LLaMA وGemma وQwen، حيث تم اختباره على مقاييس أمان عدائية مثل AdvBench وDirectHarm4 وJailbreakBench، بالإضافة إلى المهام المفيدة المنبعثة. وهذه المقاربة تبدو واعدة، حيث تحقق معدلات نجاح للهجمات مشابهة لتلك النماذج المتوافقة مع المعايير الأمنية الأساسية، بينما تحافظ على أداء تنافسي في المهام المطلوبة، متفوقة بشكل ملحوظ على القواعد الأساسية.

هل تعتقد أن تقنيات مثل REFUSALGUARD يمكن أن تغير طريقة تطوير نماذج الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.