في عالم تكنولوجيا المعلومات المتسارع، تلعب نماذج اللغات الكبيرة (Large Language Models) دورًا متزايد الأهمية في العديد من التطبيقات، ومن أبرزها الكشف عن الثغرات الأمنية. إلا أن الدراسة الأخيرة التي نُشرت تحت عنوان "Calibration Without Comprehension" تكشف عن الكثير من التساؤلات حول فعالية هذه النماذج في هذا المجال.
تقديم إطار العمل الجديد، CWE-Trace، الذي يعتمد على 834 عينة مُدققة يدويًا من نواة نظام لينكس، يغطي 74 نوعًا من الثغرات الأمنية المعروفة. يُظهر هذا الإطار أهمية الفصل الزمني بين البيانات التي تم جمعها قبل عام 2025 والبيانات التي تلت ذلك، مما يضمن عدم تسرب المعلومات ويساعد في الحفاظ على سياق العيّنات المصابة والثغرات المَصلَحة.
من خلال تقييم ثمانية نماذج LLM عادية و15 نموذجًا تم تعديلها بدقة (LoRA)، أظهرت التحليلات نتائج مثيرة للاهتمام. أولها أن التلوث البياني لا يقدم أي ميزة ملموسة، حيث يُظهر التحليل الوظيفي أن 84% من العينات الملوثة لا تحمل أي إشارات تخزين مستخدمة. كما حدثت مشكلات في تصنيف CWEs، حيث يبدو أن 31% من العينات الملوثة تعاني من تصنيف خاطئ.
الأدلة تشير أيضًا إلى أن النماذج تعاني من أنماط فشل منتظمة (Directional Failure Index) تتراوح قيمها بين -85.5 و +94.8%، وهو ما يدعو للقلق. فالتحسين من خلال التدريب لا يغير السياسات القرارية الأساسية، بل يغير فقط عتبة النتائج.
في النهاية، رغم أن أفضل أداء للنماذج في الكشف عن الثغرات لم يتجاوز 52.1%، إلا أن التصنيفات الدقيقة للمشكلات الأمنية كانت في حدود 1.3% من الدقة الأولى، مما يؤكد أن نماذج اللغات الكبيرة الحالية تفتقر إلى الاستدلال الأمني الفعال، بغض النظر عن استراتيجيات التدريب المتبعة.
هل تعتقدون أن نماذج الذكاء الاصطناعي ستصل إلى مستوى من الكفاءة يجعلها قادرة على فهم الثغرات الأمنية بشكل فعلي؟ شاركونا آرائكم!
كشف حدود نماذج اللغات الكبيرة: دراسة جديدة تكشف عن قدرة LLMs في الكشف عن الثغرات الأمنية!
أطلقت دراسة حديثة إطار عمل جديد لتقييم أداء نماذج اللغات الكبيرة في اكتشاف الثغرات الأمنية، مما يسلط الضوء على عدم كفايتها في تقديم استنتاجات دقيقة. النتائج تدعو لإعادة التفكير في مدى فعالية التدريبات الدقيقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
