في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتطور، يُعتبر التلاعب بنماذج [اللغة](/tag/اللغة) الكبيرة (Large Language [Models](/tag/models)) خطراً متزايداً. وقد أظهرت [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) كيف يمكن تفعيل التقنيات القائمة على تحسينية ([Optimization](/tag/optimization)-based) للكشف عن المحفزات العدائية (Adversarial Prompts) من خلال تطبيق مفهوم [تغييرات](/tag/تغييرات) [الانتروبيا](/tag/الانتروبيا) (Entropy Changes).
تعتبر هذه [التقنية](/tag/التقنية) بمثابة ثورة في كيفية [التعرف](/tag/التعرف) على المحفزات العدائية، حيث يتم تناول المشكلة من خلال [رؤية](/tag/رؤية) جديدة وهي تحديد نقاط التغيير (Change-point detection) في تدفق [الانتروبيا](/tag/الانتروبيا) على مستوى الرموز. باستخدام [نموذج](/tag/نموذج) النظام الأساسي، يمكن تقدير قاعدة قوية لتحليل التغيرات في [الانتروبيا](/tag/الانتروبيا) المخصصة لكل رمز.
تم [تطوير](/tag/تطوير) [تقنية](/tag/تقنية) [كشف](/tag/كشف) جديدة تدعى CPD Online (CPD)، وهي [نموذج](/tag/نموذج) غير مرتبط بنوع معين، مما يعني أنها قادرة على العمل بكفاءة مع مختلف [النماذج](/tag/النماذج) دون الحاجة للتدريب المسبق. وقد أثبتت [التجارب](/tag/التجارب) أن CPD يمكنه [تحسين](/tag/تحسين) [دقة](/tag/دقة) الكشف بشكل ملحوظ، حيث حقق معدل F1 قدره 0.82 واختبار AUROC بمعدل 0.88 مع [نموذج](/tag/نموذج) LLaMA-2-7B.
تُظهر النتائج أن CPD تركز على 79.6% من المحفزات العدائية بداخل المحفز العدائي نفسه، بينما يقتصر تركيز طرق الكشف التقليدية على 17-46%. وعلاوة على ذلك، عند دمجه مع نظام الوقاية LLaMA Guard، يمكن لـ CPD تقليل الحالات المشبوهة بنسبة 17-22% في البيئات ذات [الحركة](/tag/الحركة) العالية.
هذه [الابتكارات](/tag/الابتكارات) تمثل خطوة هامة [نحو](/tag/نحو) تعزيز [الأمان](/tag/الأمان) في [أنظمة](/tag/أنظمة) الذكاء الاصطناعي، مما يمهد الطريق لأبحاث مستقبلية أكثر تقدماً في هذا المجال.
كشف التهديدات الذكية: تقنية جديدة لكشف المحفزات العدائية باستخدام تغييرات الانتروبيا
ابتكرت دراسة جديدة تقنية مبتكرة لكشف المحفزات العدائية باستخدام تغييرات الانتروبيا، مما يعزز أمان نماذج اللغة الكبيرة (LLMs) ويحسن كفاءة كشف التهديدات. هذه التقنية تمثل خطوة هامة نحو تطوير أنظمة ذكاء اصطناعي أكثر أماناً وفهماً.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←# كشف الهجمات# نماذج لغوية# أمان الذكاء الاصطناعي# تحسين الأداء# ذكاء اصطناعي# محفزات عدائية# كاشف تهديدات# تقنيات جديدة
جاري تحميل التفاعلات...
