تعد أساليب التدريب في وقت الاختبار (Test-Time Training - TTT) إحدى الابتكارات الرائدة في مجال الذكاء الاصطناعي، حيث تتيح للنماذج تعديل معاييرها أثناء وقت الاستدلال، مما يحسن الأداء في مهام مثل التعلم من عدد قليل من الأمثلة (few-shot learning) وإنتاج النصوص المعززة بالاسترجاع (retrieval-augmented generation) وأيضًا التفكير المعقد. ومع ذلك، فإن هذه القدرة الديناميكية على التكيف تكشف عن ثغرات جديدة يمكن للخصوم استغلالها لتنفيذ هجمات مخادعة تُعرّض أمان النماذج للخطر.
في دراسة حديثة، تم تحديد ثلاثة نماذج تهديدات مرتبطة بأسلوب TTT، وتم إثبات كيف يمكن للمهاجمين استغلال هذه النماذج لتجاوز الفلاتر الأمنية. تظهر النتائج أن أسلوب TTT يمكن أن يعزز بشكل كبير من معدل نجاح الهجوم (Attack Success Rate - ASR) في مجمل التجارب. فعلى سبيل المثال، تحت نموذج LoRA، حققت نماذج التعلم من عدد قليل من الأمثلة ونماذج مرحلة الإنتاج متوسط ASR@10 يصل إلى 95% و93% على التوالي، عبر نماذج مختلفة.
تتجاوز هذه اله vulnerabilities إلى واجهات برمجة التطبيقات (APIs) في الإنتاج بعد التخصيص، مما يعزز قوة الهجمات. كما لوحظ أن الإفراط في التكيف الذي يسببه TTT يمكن أن ينتج مخرجات غير مرغوب فيها يمكن أن تزيد من ASR تحت مراقبة القضاة المعتادة، مما يدعو إلى تقييم واعٍ لمدى صحة هذه النتائج لتصحيح هذه الحالات.
تشير نتائجنا إلى أن TTT يفتح سطحًا جديدًا للهجمات، ويزيد من قوة الهجمات، ويضعف الفلاتر الأمنية الحالية. كخطوة أولى نحو الدفاع، نقترح آلية بسيطة للكشف على جانب المزود تقوم بتمييز طلبات TTT من خلال تغيير التعقيد (perplexity shift) على مجموعة خاصة ضارة، لكن النشر القوي سيتطلب في النهاية توافقاً ديناميكياً.
ثغرات جديدة تهدد أمان نماذج الذكاء الاصطناعي: كيف يمكن لأساليب التدريب في وقت الاختبار أن تنقلب ضدنا؟
يقدم أسلوب التدريب في وقت الاختبار (TTT) تحسناً ملحوظاً في أداء نماذج الذكاء الاصطناعي، لكنه يكشف أيضاً عن ثغرات جديدة يمكن أن يستغلها المهاجمون. اكتشاف ثلاثة نماذج تهديدية تكشف عن كيفية تجاوز فلاتر الأمان القائمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
