تدل الدراسات الحديثة على أن هجمات jailbreak متعددة الأدوار تُشكل تهديدًا متزايدًا على نماذج اللغة الكبيرة (Large Language Models)، حيث تستغل الديناميكيات الحوارية مثل التصعيد التدريجي والتنسيق عبر الأدوار المختلفة. الطريقة التقليدية للدفاع تعتمد غالبًا على إعادة التدريب المكلفة، التي قد تؤثر سلبًا على فائدة النموذج في الاستخدام.

لكن، ماذا لو كان هناك نهج بديل؟! هنا يأتي دور إطار THRD، وهو الأول من نوعه الذي لا يحتاج إلى تدريب مسبق ويقوم بنمذجة تجمع المخاطرTemporal Risk Accumulation بشكل صريح للدفاع ضد الهجمات.

يتكون THRD من أربعة وحدات رئيسية:
1. **مقيم المخاطر على مستوى الدور (Turn-level Risk Assessor)**: يقيم المخاطر على الفور.
2. **محلل السياق التاريخي (Historical Context Analyzer)**: يكشف عن ارتفاع النوايا عبر الأدوار.
3. **مقيِّم الاستجابة (Response Evaluator)**: يحدد النتائج المساعدة.
4. **وحدة القرار (Decision Module)**: تجمع بين هذه الإشارات من خلال آلية تسجيل تتطور مع الوقت، مما يعزز من كفاءة الدفاع.

في تجارب شاملة مع هجمات متعددة الأدوار المتقدمة، أظهر THRD قدراته الخارقة بتقليل معدل الهجمات المعترضة (ASR) إلى 0.2-4.0% مع الحفاظ على كفاءة النموذج بتراجع لا يتجاوز 1.5% على مقياسي MMLU وGSM8K.

تؤكد الدراسات الإضافية مساهمات الوحدات المتنوعة وثبات العموم عبر الهياكل المختلفة. وتحليل العوامل الأولى لرفض الهجمات يعكس أن أكثر من 70% من هجمات الأدوار المتعددة تتطلب كشفًا بعد الدورة الثانية أو أكثر، مما يعزز أهمية تجميع المعلومات الزمنية بشكل صريح.

بفضل THRD، تحظى نماذج الذكاء الاصطناعي بمستوى أعلى من الأمان، مما يعزز استخدامها في مختلف التطبيقات. في ظل هذا التطور، ما رأيكم في أهمية تحسين أمان نماذج اللغة الكبيرة؟ شاركونا آرائكم في التعليقات.