تسير التقنيات الحديثة في مجال الذكاء الاصطناعي نحو تعزيز الأمان وتقليل المخاطر المرتبطة بالنماذج اللغوية الكبيرة (Large Language Models). في هذا السياق، تلقي D-Judge الضوء على طريقة جديدة لمواجهة التهديدات المتزايدة التي تمثلها هجمات اختراق نماذج الذكاء الاصطناعي متعددة المراحل.

فما هي تلك الهجمات؟
تعتمد هجمات الاختراق متعددة المراحل على استغلال التغذية الراجعة من نماذج القضاة (Judge Models) لتحسين التعليمات الموجهة نحو أهداف ضارة بشكل تدريجي. بينما تكافح الحلول الحالية لتحسين الأمان من خلال كشف أو حظر المحتوى غير الآمن، تبقى هذه الدوائر المغلقة للتعديل متاحة للمهاجمين للحصول على تغذية راجعة مفيدة من التفاعلات المتوسطة.

تقدم D-Judge حلاً مبتكراً يتمثل في إعادة صياغة ردود نموذج اللغة الضحية قبل أن يتم تقييمها من قبل قضاة المهاجمين. هذه التقنية تعمل على تغيير إشارة التغذية الراجعة التي تتلقاها النماذج المهاجمة دون تغيير معنى ردود النموذج الأصلي، مما يعطل عملية تحسين التعليمات لدى المهاجمين.

لتحسين قدرة D-Judge على تقديم مثل هذه الإعادة الصياغة، تم بناء مجموعة بيانات تحتوي على أزواج ردود متكافئة دلالياً ولكنها تُعطي درجات خطورة مختلفة من قبل القضاة. وقد تم استخدام هذه البيانات لضبط أداء النموذج عبر التدريب الموجه يلي تحسين التفضيلات.

أظهرت التجارب على منصة HarmBench أن D-Judge نجحت في تقليل معدل نجاح الهجمات الحديثة للاختراق متعدد المراحل، مع الحفاظ على الأداء في التقييمات الصديقة. إنه تطور يعد ثورة في كيفية حماية نماذج الذكاء الاصطناعي وتعزيز قدراتها في مواجهة التحديات المهددة.