في عصر الذكاء الاصطناعي المتقدم، تواجه نماذج التفكير الكبيرة (LRMs) تحديات متعددة، أبرزها الأمان ضد الهجمات المعقدة والاستفسارات الضارة. على الرغم من تفوق هذه النماذج في أداء المهام الصعبة، إلا أنها لا تزال معرضة بشكل كبير للاختراقات الذكية. لحل هذه المشكلة، اعتمدت الأبحاث السابقة بشكل كبير على التقييم اليدوي للبيانات لتعزيز مستوى الأمان.
ومؤخراً، تم تقديم دراسة جديدة تكشف عن مفهوم مثير يعرف باسم الوعي بالسلامة الخفية (Latent Safety Awareness)، حيث أظهرت النتائج أن هذه النماذج قادرة على التعرف على المخاطر المحتملة عند تقديم الاستفسارات الأصلية جنباً إلى جنب مع مسارات التفكير الخاصة بها.
للاستفادة من هذه القدرة، تم استخدام تقنية التوجيه الذاتي المعزز (Supervised Fine-Tuning - SFT) لوضع علامات أمان صريحة، مما يمكن النماذج من تقديم تحليل إرشادي وتحذيرات تتعلق بالمخاطر المترتبة على الاستفسارات غير الآمنة، بينما تستمر في تقديم ردود عادية للاستفسارات العامة.
بعد ذلك، تم تطبيق تحسين التفضيل المباشر (Direct Preference Optimization - DPO) لتعزيز صحة وثبات تحليل الأمان والإرشادات. وتجدر الإشارة إلى أن البيانات المطلوبة لتدريب كلا المرحلتين يتم إنتاجها بالكامل من قبل النماذج نفسها.
تظهر التجارب التي تمت مع نماذج مثل DeepSeek-R1-Distill-Llama-8B انخفاضًا ملحوظًا في معدل نجاح الهجمات بنسبة تصل إلى 24.65% و36.72% في benchmark الاستفسارات الضارة والاختراقات، على التوالي.
المثير في الأمر، أن هذه الاستراتيجيات لا تؤثر سلبًا على الأداء العام أو تجربة المستخدم. وبالتالي، تأمل الأبحاث أن تمثل هذه التقنية خطوة مهمة نحو تحقيق أمان أفضل في تطبيقات الذكاء الاصطناعي.
ثورة في أمان الذكاء الاصطناعي: كيف تعزز نماذج التفكير الكبيرة الوعي بالسلامة الخفية؟
تقدم الأبحاث الجديدة في نماذج التفكير الكبيرة (LRMs) تقنية متقدمة لتعزيز الأمان من خلال التعرف الذاتي على المخاطر. هذه المبادرة تأتي بعد تزايد التهديدات والاختراقات التي تواجهها هذه النماذج، مما يضمن استجابتها بشكل آمن وفعّال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
