في عالم الذكاء الاصطناعي المتطور، ومع تزايد انتشار النماذج اللغوية الضخمة (Large Language Models) مثل GPT-4، تتصاعد المخاوف بشأن ضرورة تأمين هذه الأنظمة ضد الهجمات الضارة المعروفة بـ "هجمات jailbreak".

وعلى الرغم من أن النماذج التجارية مثل GPT-4 قد تم تقييمها بشكل مكثف فيما يتعلق بمقاومتها لهذه الهجمات، إلا أن النماذج مفتوحة المصدر مثل DeepSeek لم تحظ بما يكفي من الفحص، بالرغم من استخدامها المتزايد في التطبيقات التي تعتمد على النماذج اللغوية.

تتناول هذه الدراسة الشاملة تقييم أولي لنموذج DeepSeek، حيث تم إجراء مقارنة دقيقة بينه وبين نماذج GPT-3.5 وGPT-4 باستخدام معيار HarmBench. تم تحليل سبع طرق هجوم تمثل 510 سلوك ضار، تم تنظيمها وفقًا للأبعاد الوظيفية والدلالية.

تشير النتائج إلى أن DeepSeek يظهر مقاومة جزئية ضد الهجمات المبنية على التحسين مثل TAP-T، لكنه في المقابل يعاني من ضعف أكبر أمام المدخلات الضارة المعتمدة على الأوامر اليدوية. بالمقارنة، يتمتع نموذج GPT-4 Turbo بآمان أكثر قوة وثبات عبر مجموعة واسعة من السلوكيات، مما يرجع إلى تحسين الأمان الأقوى والتعلم المعزز من ردود الفعل البشرية.

كما تظهر التحليلات التفصيلية للحالات أن DeepSeek غالبًا ما يفشل في تطبيق قيود الأمان بشكل متسق على المدخلات الضارة، مما يؤدي إلى سلوكيات رفض غير متجانسة. بشكل عام، تبرز هذه النتائج التفرقة الجوهرية بين كفاءة النموذج وعام التوافق، مما يؤكد على أهمية تحسين الأمان المستهدف واستراتيجيات التوافق القوي لضمان نشر آمن للنماذج اللغوية المفتوحة المصدر.