في إطار تطور الذكاء الاصطناعي، يبرز بحث جديد تم نشره على arXiv يسلط الضوء على نقاط ضعف أنظمة الأمان في النماذج اللغوية الكبيرة (LLMs). بينما تعتمد هذه الأنظمة على آليات أمان تهدف إلى الحد من المخرجات الضارة، اتضح أن ثغرات رئيسية في هذه الدفاعات تكمن في اعتمادها على مطابقة الأنماط المعنوية فقط.
للكشف عن هذه الثغرات، قام فريق البحث بتطوير هجمات رياضية مبتكرة من خلال ترميز الإشارات الضارة كمسائل رياضية متماسكة باستخدام أساليب مثل نظرية المجموعات (Set Theory) والمنطق الرسمي (Formal Logic) وميكانيكا الكم (Quantum Mechanics). النتيجة كانت مذهلة؛ إذ تمكنوا من تجاوز تلك الفلاتر بمتوسط نجاح يتراوح بين 46% و56% عبر ثمانية نماذج مستهدفة واثنين من المعايير المعروفة.
ولكن الأمر الأكثر أهمية هو أن فعالية هذه الهجمات لا تعتمد على الرموز الرياضية بحد ذاتها، بل على قدرة نموذج المساعدة (Helper LLM) على إعادة صياغة المحتوى الضار في شكل مشكلة رياضية حقيقية. في حين أن الترميزات القائم على القواعد التي تطبق تنسيقاً رياضياً دون إعادة صياغة فعلية لا تحقق نتائج أفضل من الأساسيات غير المشفرة.
أدخل الباحثون طريقة ترميز جديدة باستخدام المنطق الرسمي، والتي أثبتت نجاحها في الهجمات بشكل مشابه لنظرية المجموعات. وهذا يدل على أن هذه الثغرات لا تقتصر فقط على نوع معين من الأساليب الرياضية.
تجارب إضافية مع معالجة متكررة تؤكد أن هذه الهجمات تبقى فعالة حتى بعد تحسين التعليمات. بينما أظهرت النماذج الأحدث مثل GPT-5 وGPT-5-Mini مستوى أعلى من المقاومة مقارنة بالنماذج القديمة، فإنها لا تزال عرضة لهذه النوعية من الهجمات.
تشير هذه النتائج إلى نقاط ضعف أساسية في الأطر الحالية للأمان، مما يحفز الحاجة لتطوير دفاعات تأخذ في الاعتبار الهيكل الرياضي بدلاً من السطحيات المعنوية فقط.
ختاماً، يتطلب هذا الاكتشاف إعادة التفكير في استراتيجيات الأمان لتناسب التطورات المستمرة في الذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
نقاط ضعف نماذج اللغة الكبيرة (LLMs): هجمات رياضية تكشف المخاطر المخفية!
استعرض بحث جديد نقاط الضعف في أنظمة الأمان الخاصة بالنماذج اللغوية الكبيرة من خلال هجمات رياضية مبتكرة، محذراً من فعالية تلك الهجمات بنسبة تصل إلى 56%. هذا التطور يسلط الضوء على الحاجة الملحة لتحسين آليات الحماية ضد المخرجات الضارة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
