تتزايد الاعتماد على الأنظمة الذكية المدعومة بنماذج اللغات الضخمة (LLMs) في مختلف المجالات الرقمية، بدءاً من التطبيقات وصولاً إلى أنظمة التشغيل. ومع ذلك، لا تزال معايير الأمان الحالية تركز بشكل كبير على المخاطر الواضحة، مما قد يؤدي إلى تضخيم تقدير نموذج الذكاء الاصطناعي لقدرته على الحكم في السيناريوهات الخادعة أو الغامضة.
لمواجهة هذا التحدي، تم تقديم تقنية جديدة تُعرف باسم ROME (تحويل السياقات المتعددة من خلال فرق ريد) - وهي سلسلة من الخطوات لتطوير معايير تقييم خاضعة للتحكم. تقوم ROME بإعادة صياغة المسارات غير الآمنة المعروفة إلى حالات تقييم أكثر خداعاً مع الحفاظ على تصنيفات المخاطر الأساسية. من خلال بدء العمل على 100 مسار غير آمن، تنتج ROME 300 حالة تحدي تشمل غموض السياق، والمخاطر الضمنية، واتخاذ قرارات سريعة. تظهر التجارب أن هذه المجموعات التحدي تقلل بشكل كبير من أداء الحكم على الأمان، مع بقاء حالات المخاطر الخفية كقضية غير بسيطة حتى بالنسبة لأحدث النماذج الرائدة.
علاوةً على ذلك، تم دراسة تقنية جديدة تُعرف باسم ARISE (الاستدلال التشبيهي لتعزيز الأمان في الوقت الحقيقي)، التي تعمل على تحسين الحكم من خلال استرجاع مسارات أمان تشبيهيه مستندة إلى أسلوب ReAct من قاعدة بيانات تشبيهية خارجية، وحقنها كأمثلة لما يجب التفكير فيه بشكل منطقي. تحسن ARISE من جودة الحكم دون الحاجة لإعادة تدريب النموذج، لكنها يجب أن تُعتبر تعزيزاً للمتانة الخاصة بالمهام بدلاً من ضمان أمان مستقل.
تقدم ROME وARISE أدوات عملية لاختبار وتحسين حكم الأنظمة الذكية في مواجهة التحولات الخادعة في التوزيع، مما يمهد الطريق نحو تحقيق أمان أعلى وأكثر موثوقية لهذه الأنظمة.
تعزيز أمان الأنظمة الذكية: تقنيات جديدة لتحسين الحكم في سيناريوهات الخداع
تقدم الأنظمة الذكية المدعومة بنماذج اللغات الضخمة (LLMs) تحديات جديدة في مجال الأمان. تقدم دراسة جديدة نهجاً مبتكراً لتقييم فعالية حكم هذه الأنظمة في مواجهة سيناريوهات الخداع المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
