في عالم الذكاء الاصطناعي المتطور، لا تزال نماذج اللغات الضخمة (Large Language Models - LLM) تواجه تحديات كبيرة تتعلق بالسلامة والأمن، خاصة فيما يتعلق بهجمات الاختراق التي تؤدي إلى استجابات غير آمنة. في هذا السياق، تم تقديم مفهوم "حراسة ما قبل النموذج" كحلّ مبتكر لتحسين عملية التدقيق في سلامة المدخلات قبل استدعاء النماذج المستهدفة.

تعمل الحراسة ما قبل النموذج على مراجعة المدخلات (prompts) قبل تفعيل النماذج، ولكن الاعتماد على هذه المدخلات فقط يؤدي إلى معدلات عالية من الأخطاء السلبية، حيث لا يتم اكتشاف هجمات الاختراق بشكل صحيح. ومن هنا تظهر أهمية الحراسة ما بعد النموذج، التي تقوم بتدقيق كل من المدخلات واستجابات النموذج المستهدف، لكن، يعاني هذا الأسلوب من تكاليف حسابية مرتفعة، بما في ذلك زيادة استخدام التوكنات ووقت المعالجة، لأنها تعمل بعد استنتاج النموذج.

تقدم الورقة البحثية تصميمًا مبتكرًا للحماية يستفيد من قابلية انتقال هجمات الاختراق من نماذج اللغات الكبيرة إلى النماذج الأصغر (Small Language Models - SLM). أظهرت التجارب أن استجابات النماذج الأصغر تعكس تبعات السلامة للنماذج الكبيرة؛ أي أنه عند استخدام مدخل اختراق مصمم لنموذج لغوي كبير، من المرجح أن يتم تحفيز نموذج لغوي صغير لإنتاج استجابة غير متوافقة.

استنادًا إلى هذا الملاحظة، يعمل التصميم الجديد على استغلال الاستنتاج التكهنّي (speculative inference) مع النماذج الأصغر لابتكار مجموعة من الاستجابات المسودة. ثم يتم إدخال المدخل الأصلي وهذه المسودات إلى الحراس الحاليين لتوقع سلامتها. أظهرت النتائج أن هذا التصميم يقلل من معدل الأخطاء السلبية للحراس ما قبل النموذج ويقدم بديلاً أقل تكلفة مقارنةً بالحراس ما بعد النموذج.

بهذه الطريقة، نكون قد ألقينا نظرة على مستقبل حماية النماذج اللغوية في زمن الذكاء الاصطناعي. تتعدد الحلول والتقنيات، ولكن تبقى أهمية السلامة والأمن دائمًا في المقدمة. ما رأيكم في هذه التطورات المذهلة؟ شاركونا في التعليقات.