في السنوات الأخيرة، شهدنا بروز نماذج اللغة القائمة على الانتشار (Diffusion Language Models - DLMs) كبديل قوي للنماذج التقليدية المعتمدة على الانحدار الذاتي (Autoregressive Models - AR). تُعتبر نماذج الانتشار منافساً حقيقياً؛ حيث توفر إمكانية فك التشفير بشكل متوازي، وجودة توليد منافسة، وأدلة أولية على تحسين متانة النظام ضد محاولات الاختراق.
ومع ذلك، لا يزال دور آليات العينة في تشكيل سلوك الرفض غير مفهوم بشكل جيد. لمواجهة هذه الفجوة، أجرينا دراسة شاملة حول ديناميكيات الرفض خطوة بخطوة. تبين من خلال البحث أن إعادة تحويل نماذج الانتشار يمكن أن تعزز من الانتعاش من توليدات ضارة متوسطة، مما يوفر دليلاً على أن هذا السلوك مرتبط بآلية العينة.
أظهرت النتائج أن التحول من العينة الذاتية إلى نماذج الانتشار يحقق تحسينًا في متانة مواجهة الاختراق، حتى تحت أوزان نماذج ثابتة. ولتقديم فهم أفضل للديناميات في التوليد التي لا يمكن ملاحظتها على مستوى النص، اقترحنا إشارة ديناميات الرفض الداخلية خطوة بخطوة (Step-Wise Refusal Internal Dynamics - SRI).
تتفق إشارات SRI مع النتائج على مستوى النص، إذ تظهر أن الانتعاش يفشل بشكل أساسي تحت آلية العينة الذاتية، وغالباً ما تظهر هذه الإخفاقات بشكل غير عادي مقارنة بالتوليدات غير الضارة في فضاء SRI. بناءً على هذه الملاحظة، أبرزنا أن SRI يتيح مص detector بسيط لاكتشاف الاختراقات الذي لا يعدل الاستدلال ويتعمق في التهديدات غير المرئية من خلال التدريب فقط على إشارات SRI السليمة.
تدل تقييماتنا على أن هذا الكاشف يتساوى أو يتفوق على المعايير الحالية لاكتشاف الاختراق بينما يضيف عبئًا ضئيلاً.
إعادة التفكير في دقة نماذج اللغة: اكتشاف ديناميكيات الرفض في نماذج الانحدار الذاتي ونماذج الانتشار
تقدم دراسة شاملة لفهم ديناميكيات الرفض المستندة إلى خطوات في نماذج اللغة الحديثة، مما يعزز فعالية اكتشاف عمليات اختراق الأنظمة. النتائج تشير إلى أن نماذج الانتشار تتفوق على النماذج التقليدية من حيث الأمان وكفاءة التوليد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
