في عالم الذكاء الاصطناعي المتطور، تُعتبر عملية تحسين نماذج اللغة الضخمة (LLMs) عنصرًا أساسيًا لتكييف النماذج المدربة مسبقًا مع المهام المختلفة. إلا أن هذه العملية تفتح أبوابًا جديدة للمهاجمين نظرًا لاعتمادها على بيانات التدريب، وتحديث المعلمات، والعناصر القابلة لإعادة الاستخدام. لقد تطورت التهديدات من تسميم البيانات (data poisoning) وتعديل الوزن (weight tampering) إلى استغلال التفاعل مع وكيل (agent manipulation) وواجهة المستخدم (interface exploitation).

الأهداف من هذا المقال هي تقديم مسح منهجي لأمان تحسين نماذج اللغة الضخمة وتأسيس إطار عمل يستند إلى دورة العمل لمقارنة الهجمات ووسائل الدفاع. تم تقسيم آليات الهجوم والدفاع إلى ثلاث مراحل بحسب توقيت التدخل: قبل تحسين النموذج، أثناء التحسين، وبعده. في كل مرحلة، تم مراجعة واستعراض الاستراتيجيات لفضح تطورها وحدودها.

تشير النتائج إلى أن فعالية الهجمات تعتمد بشكل كبير على النموذج المستخدم، حيث إن هجمات تعديل الوزن التي كانت فعالة على النماذج القديمة تفقد تأثيرها على نماذج LLMs الحديثة. كما أن نقل البوابة عبر اللغات، الذي تم الإبلاغ عنه بفاعلية عالية، يفشل على النماذج التي تتراوح سعتها بين 1B-4B. حتى أن العينات التي تبدو غير ضارة يمكن أن تضر بتوافق الأمان في النماذج المدربة على التعليمات.

أما بالنسبة لوسائل الدفاع، فهي نادرًا ما تعمم عبر جميع المراحل، وتعتمد فعالية الدفاع على معمارية النموذج وحالة التوافق. تستعرض الدراسة مشكلات قائمة تتعلق بالدفاعات المرنة (configuration-robust defense)، وتكوين الدفاعات عبر المراحل، وهجمات الفضاء الدلالي (embedding-space attacks) التي تتجاوز الافتراضات السلوكية. كما تقترح الدراسة مسارات بحثية ملموسة لمواجهة هذه التحديات.

بهذه الطريقة، يكون من الضروري أن نتبنى مقاربة شاملة لتعزيز الأمان في عملية تحسين نماذج اللغة الضخمة، مما يتيح تحصين هذه التكنولوجيا الرائدة ضد التهديدات المتزايدة في المستقبل.