في خطوة مذهلة نحو تطوير الذكاء الاصطناعي، تمكن العلماء من استخدام عملاء ذكيين لتطوير خوارزميات جديدة تهدف إلى الهجمات المعقدة (Adversarial Attacks) على نماذج اللغات الضخمة (Large Language Models - LLMs). يأتي هذا الاكتشاف بعد تنفيذ تجربة تحققت فيها تقدمًا كبيرًا في تقييمات تقنيات كسر الحماية (Jailbreaking) وتضمين التعليمات (Prompt Injection).
استندت التجربة على استخدام عملاء متقدمين مثل Claude Code وCodex، حيث تم تنفيذ دورة بحث تلقائية (Autoresearch Loop) مع إمكانية الوصول إلى مكتبة تحتوي على أكثر من 30 طريقة سابقة بالإضافة إلى نص لتقييم الأداء ضمن ميزانية حسابية محددة. وبالتالي، أظهرت النتائج فعالية هذه الطريقة في كسر حماية نموذج OpenAI's GPT-OSS-Safeguard-20B والتلاعب بالنموذج Meta-SecAlign-70B، الذي يتمتع بقدرات مقاومة متقدمة لهجمات الخصوم.
تمكن الفريق من تحقيق معدل نجاح للهجمات يصل إلى 80% على استفسارات CBRN باستخدام الطريقة المكتشفة حديثًا، بينما لم تتجاوز الأساليب التقليدية 50%. أما بالنسبة لنموذج SecAlign، فقد بلغت نسبة نجاح الهجمات 100%، وهو إنجاز يفوق 82% التي حققتها أفضل الأساليب السابقة.
من المثير للاهتمام أن طريقة الهجوم تم تطويرها على نماذج بديلة غير مرتبطة، مما يعكس قدرة هذه الخوارزميات على التكيف مع النماذج المستهدفة بشكل غير متوقع. في النهاية، قدم الباحثون تحليلًا لشجرة التطوير للطُرق المُبتكرة خلال البحث التلقائي، موضحين استراتيجيات العملاء وأنماط الفشل.
وهكذا، يعتبر البحث في مجال التعلم الآلي العدائي (Adversarial Machine Learning) ضروريًا، حيث يجب تقييم الدفاعات ضد الهجمات المخصصة لها. نحن نحاجج أن البحث التلقائي يجب أن يكون الحد الأدنى المطلوب لتقييم الدفاعات في المستقبل.
ثورة الذكاء الاصطناعي: اكتشاف خوارزميات حديثة للهجمات المعقدة على نماذج اللغات الضخمة
كشف باحثون عن قدرة العملاء الذكاء الاصطناعي على ابتكار خوارزميات جديدة للهجمات المعقدة على نماذج اللغات الضخمة (LLMs). هذه التطورات تُحدث تحولًا في أساليب هجمات التلاعب والتكنولوجيا القائمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
