في عالم الذكاء الاصطناعي (AI)، تظل نماذج اللغات الضخمة (Large Language Models) محط اهتمام كبير، ولكن ماذا يحدث عندما تتسرب الثغرات في نظام أمانها؟ في دراسة جديدة نُشرت على منصة arXiv، استعرض الباحثون كيف يمكن لتقنيات تجزئة الرموز، مثل تقنية BPE، أن تخلق ثغرات خطرة يمكن استغلالها.

ركزت الدراسة على كيفية تفاعل الانحرافات على مستوى الحرف مع نظام الأمان، حيث تمكنت هذه الانحرافات من تجاوز نظام المحاذاة الأمني على الرغم من تركها النصوص مقروءة من قبل البشر. من خلال تجزئة الكلمات الحيوية إلى قطع صغيرة، تبرز مشكلة في الأمان لم يتم التعرف عليها بعد في ثلاث مجموعات بيانات عامة للمحاذاة، حيث لا تحتوي على مدخلات مفككة بشكل مقصود.

عبر الاختبارات الشاملة على خمس عائلات من نماذج اللغات، بما في ذلك Qwen-3-4B وLlama-3.1-8B، أثبتت النتائج أن استهداف تجزئة الرموز يجعل أنظمة الأمان أكثر عرضة للاختراق، حيث أدت 48% من التعديلات إلى إنتاج مخرجات ضارة فعليًا.

ولكن على جانب الدفاع، أثبتت التحليلات أن إعدادات DPO لم تنجح في تحقيق الاستقرار اللازم أمام المجموعات المغلقة، مما يسلط الضوء على الصعوبات المستمرة في تعزيز الأمان. بينما فتحت هذه النتائج أفقًا جديدًا في فهم قيود المحاذاة الأمنية لنماذج اللغة، لا يزال من الضروري دراسة التراكيب والأدوات الدفاعية بشكل أعمق.

هل تتفقون مع هذه الاكتشافات؟ ما هي التدابير التي يجب أن تتخذها الشركات لتأمين أنظمتها ضد هذه الثغرات؟ شاركونا آرائكم في التعليقات!