تتعرض نماذج اللغات الضخمة (Large Language Models) لضغوط متزايدة لتحقيق توازن دقيق بين الأمان والدقة، خصوصًا في مواجهة أساليب هجوم الحقن غير المباشر (Prompt Injection). في دراسة حديثة نُشرت على arXiv، تم تسليط الضوء على التحديات التي تواجه هذه النماذج، حيث تُظهر النتائج أن تكاليف الدفاع ضد هذه الهجمات قد تؤثر سلبًا على الأداء في مهام مثل الترجمة وتحرير الوثائق.
تسلط الدراسة الضوء على نموذج يطلق عليه اسم "SecFid"، والذي يعد معيارًا جديدًا ينظر إلى الأمان والدقة بشكل منفصل. في الواقع، الدفاعات الحالية تستند إلى تقليل النصوص غير الموثوقة، ما يؤدي إلى فساد بعض المهام التي تتطلب معالجة دقيقة للنصوص. وتبين أن مقياس نجاح الهجوم لا يمكنه رؤية هذا الانحراف لأن النموذج الذي يتجاهل الحقن ويحافظ على الدقة يُسجل نتيجتين متطابقتين!
تكشف الدراسة أن أعلى نموذج دقة حقق 96.5% دقة مع مستوى أمان 47.8%، بينما الدفاعات الأكثر أمانًا بلغت 99.3% أمان إلا أن دقتها كانت فقط بين 71.0% - 73.9%. وهذا يطرح تساؤلات حول كيف يمكن للخيارات الدفاعية أن تؤثر على الأداء بشكل ملحوظ.
أخيرًا، يظهر التحليل الذي أجري أن السلوك الصحيح ليس خاصًا بالدفاع بحد ذاته، بل يعتمد على ظروف التنفيذ والتكاليف النسبية لكل هجوم. ويشير هذا إلى أن قياس الأمان فقط يعد نصف الصورة، والإبلاغ عنه دون النظر إلى الدقة يخفي التكلفة الحقيقية التي تم دفعها.
التحدي المزدوج: توازن الأمان والدقة في مواجهة هجمات الحقن على نماذج الذكاء الاصطناعي
تواجه نماذج اللغات الضخمة (Large Language Models) تحديات جديدة ترتبط بالأمان والدقة في مواجهة هجمات الحقن. دراسة جديدة تكشف عن أهمية قياس هذا التوازن بشكل دقيق لتفادي تكاليف غير مرئية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
