في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتقدم، تتزايد التحديات الخاصة بالكشف عن الاستخدام غير المصرح به للمعارف الناتجة عن [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLM](/tag/llm)). تواجه الأنظمة الأمنية صعوبة في تأمين هذه [النماذج](/tag/النماذج) ضد attacker يستخدم [تقنيات](/tag/تقنيات) مثل Knowledge Distillation. لذا، ظهرت [ابتكارات جديدة](/tag/[ابتكارات](/tag/ابتكارات)-جديدة) تحت مسمى "علامات المضادة للتقطير (Antidistillation Watermarks)"، والتي تعد خطوة متقدمة في [حماية](/tag/حماية) هذه [التكنولوجيا](/tag/التكنولوجيا).
بدلاً من الاعتماد على مخرجات المعلم فقط، توفر العلامات المضادة للسلوكيات (Behavioral Watermarks) مستوى [حماية](/tag/حماية) أعلى. يتمثل هذا المفهوم في دمج علامات سلوكية استجابةً لطريقة [تفاعل](/tag/تفاعل) المعلم، مما يتيح للمدافعين وضع نظام مؤقت يولد سجلات سلوكية مثل الأسئلة المتكررة أو التكرارات الضعيفة. يتيح هذا للكاشف من [تتبع](/tag/تتبع) السلوكيات المشبوهة من المتدربين المحتملين دون الحاجة للتحكم في عملية [التدريب](/tag/التدريب) بالكامل.
تظهر الدراسات أن هذه العلامات السلوكية يمكن أن [تنقل](/tag/تنقل) بنسبة تصل إلى 88.9% من [دقة](/tag/دقة) [النقل](/tag/النقل) من معلم إلى طالب. ومن المعروف أن هذه التقنيات تعزز من [أنظمة](/tag/أنظمة) [الحماية](/tag/الحماية) وتنشر أمانًا أكبر في كيفية استخدام النتائج المنتجة من هذه [النماذج](/tag/النماذج).
مع نضوج هذه الأساليب الأمنية، يظل السؤال مطروحًا: إلى أي مدى يمكن أن نثق في [أنظمة](/tag/أنظمة) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) لحماية بياناتنا التجريبية من الاستخدام غير المشروع؟
علامات مضادة للتقطير: كيفية حماية نماذج الذكاء الاصطناعي من الاستخدام غير المصرح به!
تقدم الأبحاث الحديثة استراتيجيات جديدة للكشف عن التقطير غير المصرح به للمعرفة من واجهات برمجة التطبيقات لنماذج اللغات الضخمة (LLM). هذه الاستراتيجيات تشمل استغلال سلوك المعلم لإضافة علامات ميزات سلوكية فريدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
