في عصر تصبح فيه نماذج اللغات الكبيرة (Large Language Models) أكثر تطوراً وقدرةً، يظهر التحدي الكبير لتعزيز مقاومة هذه النماذج ضد التلاعبات غير الآمنة، سواء كانت غير متعمدة أو متعمدة. هنا يأتي دور تمبربينش (TamperBench) كالإطار الأول من نوعه الذي يُستخدم لقياس مقاومة هذه النماذج للتلاعب بشكل ممنهج.

يوفر تمبربينش مجموعة شاملة من الهجمات المرتبطة بتعديل مساحات الأوزان، وهجمات تمثيل الفضاء الكامن، ودفاعات مرحلة التوافق، مما يمكّن الباحثين من إجراء تقييمات واقعية عبر مقارنة عدة نماذج.

هذا النظام يتيح للباحثين إجراء عمليات تقييم دقيقة من خلال عمليات تجريبية منتظمة لكل نموذج وهجوم، مما يسهل فهم المفاضلات بين الأمان والفائدة. باستخدام تمبربينش، تم تقييم 21 نموذجاً من نماذج اللغات الكبيرة، بما في ذلك النسخ المعززة بالدفاعات، عبر تسعة تهديدات للتلاعب باستخدام مقاييس موحدة.

تظهر النتائج أن سوء التدريب يمكن أن يؤثر بشكل كبير على مقاومة التلاعب، حيث يُعتبر اعتداء تحرير البيانات من أكثر الهجمات حدة. الأهم من ذلك، فشلت الدفاعات الحالية بنسبة كبيرة في مواجهة الهجمات المتنوعة.

لزيارة مستودع الشيفرة المصدرية الخاصة بـ TamperBench، يمكنكم الدخول إلى GitHub.

ما هو رأيكم في هذه الخطوة الكبيرة نحو تعزيز أمان الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!