في عالم تكنولوجيا المعلومات المتسارع، تلعب نماذج اللغات الكبيرة (Large Language Models) دورًا متزايد الأهمية في العديد من التطبيقات، ومن أبرزها الكشف عن الثغرات الأمنية. إلا أن الدراسة الأخيرة التي نُشرت تحت عنوان "Calibration Without Comprehension" تكشف عن الكثير من التساؤلات حول فعالية هذه النماذج في هذا المجال.

تقديم إطار العمل الجديد، CWE-Trace، الذي يعتمد على 834 عينة مُدققة يدويًا من نواة نظام لينكس، يغطي 74 نوعًا من الثغرات الأمنية المعروفة. يُظهر هذا الإطار أهمية الفصل الزمني بين البيانات التي تم جمعها قبل عام 2025 والبيانات التي تلت ذلك، مما يضمن عدم تسرب المعلومات ويساعد في الحفاظ على سياق العيّنات المصابة والثغرات المَصلَحة.

من خلال تقييم ثمانية نماذج LLM عادية و15 نموذجًا تم تعديلها بدقة (LoRA)، أظهرت التحليلات نتائج مثيرة للاهتمام. أولها أن التلوث البياني لا يقدم أي ميزة ملموسة، حيث يُظهر التحليل الوظيفي أن 84% من العينات الملوثة لا تحمل أي إشارات تخزين مستخدمة. كما حدثت مشكلات في تصنيف CWEs، حيث يبدو أن 31% من العينات الملوثة تعاني من تصنيف خاطئ.

الأدلة تشير أيضًا إلى أن النماذج تعاني من أنماط فشل منتظمة (Directional Failure Index) تتراوح قيمها بين -85.5 و +94.8%، وهو ما يدعو للقلق. فالتحسين من خلال التدريب لا يغير السياسات القرارية الأساسية، بل يغير فقط عتبة النتائج.

في النهاية، رغم أن أفضل أداء للنماذج في الكشف عن الثغرات لم يتجاوز 52.1%، إلا أن التصنيفات الدقيقة للمشكلات الأمنية كانت في حدود 1.3% من الدقة الأولى، مما يؤكد أن نماذج اللغات الكبيرة الحالية تفتقر إلى الاستدلال الأمني الفعال، بغض النظر عن استراتيجيات التدريب المتبعة.

هل تعتقدون أن نماذج الذكاء الاصطناعي ستصل إلى مستوى من الكفاءة يجعلها قادرة على فهم الثغرات الأمنية بشكل فعلي؟ شاركونا آرائكم!