تعد [تقنية](/tag/تقنية) [تحسين الاستدلال](/tag/[تحسين](/tag/تحسين)-[الاستدلال](/tag/الاستدلال)) (Inference [Optimization](/tag/optimization)) أمرًا حيويًا لنشر [النماذج اللغوية الضخمة](/tag/[النماذج](/tag/النماذج)-اللغوية-الضخمة) (Large Language [Models](/tag/models)) على نطاق واسع، وتُعتبر [تقنية](/tag/تقنية) التجميع (Compilation) الأكثر شيوعًا لهذه الغاية. ولكن، ماذا لو أخبرتك أن هذه [التقنية](/tag/التقنية) يمكن أن تُستغل بشكل خبيث لتضمين باك دور خفي في [النماذج](/tag/النماذج)؟
إليك ما يكشفه [البحث](/tag/البحث) الجديد: في الوقت الذي يفترض فيه أن التجميع يحافظ على المساواة الدلالية بين الرسومات الأصلية والمجمعة، اكتشف الباحثون أن الآثار الجانبية العددية يمكن أن تُستغل لزرع [هجمات خلفية](/tag/[هجمات](/tag/هجمات)-خلفية) بطريقة تتخذ شكل استراتيجيتين تكميليتين.
الأولى هي [استراتيجية](/tag/استراتيجية) تسجل تفعيلًا للتنبؤات لنماذج معينة فحسب، في حين أن الثانية تستعمل مُحفزًا عالميًا يبقى خاملاً في التنفيذ غير المُجمع، لكنه يتسلل لإحداث [فوضى](/tag/فوضى) عند تطبيق [تحسين](/tag/تحسين) التجميع. المدهش أن كليهما يتجاوز [اختبارات](/tag/اختبارات) [الأمان](/tag/الأمان) التقليدية التي تُجرى دون التجميع.
لقد أظهرت [التجارب](/tag/التجارب) أن هذه [الهجمات الخلفية](/tag/الهجمات-الخلفية) المُحفزة بواسطة [تحسينات الأداء](/tag/[تحسينات](/tag/تحسينات)-[الأداء](/tag/الأداء)) تحقّق نسب [نجاح](/tag/نجاح) تصل إلى 90% [عبر](/tag/عبر) أربعة [نماذج لغوية ضخمة](/tag/[نماذج](/tag/نماذج)-لغوية-ضخمة) مفتوحة المصدر وأربع مهام، بينما تستمر [الدقة](/tag/الدقة) النقية في الارتفاع بنسبة [تقارب](/tag/تقارب) 100% تحت جميع الإعدادات.
هذا الاكتشاف يسلط الضوء على سطح [هجوم](/tag/هجوم) [جديد](/tag/جديد) عند نقطة تلاقي [التحسين](/tag/التحسين) والأمان في عملية [نشر النماذج](/tag/[نشر](/tag/نشر)-[النماذج](/tag/النماذج)) اللغوية، مما يتطلب الآن ضرورة [التفكير](/tag/التفكير) في [استراتيجيات](/tag/استراتيجيات) دفاعية فعّالة لمواجهة هذه التهديدات المتطورة.
ما رأيكم في هذا التطور المثير؟ شاركونا في [التعليقات](/tag/التعليقات)!
هل تخفي النماذج اللغوية الضخمة مخاطر قاتلة؟ الهجمات الخلفية المُحفزة بواسطة تحسينات الأداء!
يستعرض هذا المقال اكتشافًا مذهلاً حول كيفية استغلال تحسينات الأداء في النماذج اللغوية الضخمة (LLMs) لزرع هجمات خلفية خفية. كما يقدم استراتيجيات دفاعية لمواجهة هذه التهديدات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
