إعادة تعريف تحليل البرمجيات الضارة: LCC-LLM وطرقه المبتكرة

تسارعت وتيرة الاستفادة من نماذج اللغات الضخمة (Large Language Models) في تحليل البرمجيات الضارة، ولكن لا تزال الأساليب الحالية تعاني من قيود مرتبطة بمؤشرات غير مدعومة وعدم وجود أساس كودري قوي لتحديد الشرائح الخبيثة والضعيفة. لمواجهة هذه التحديات، يقدم البحث الجديد LCC-LLM، والذي يتضمن مجموعة بيانات مركزية على الشيفرة وإطار عمل يستند إلى الأدلة لتحليل البرمجيات الضارة وتحليلها الثابت المتعدد المهام.

تحتوي مجموعة بيانات LCCD المقترحة على حوالي 34,000 عينة من أنواع PE التي تمت معالجتها من خلال عملية عكس هندسية على نطاق واسع، وتم تمثيلها باستخدام شيفرة C المفككة، وشيفرات التجميع، وملفات CFG/FCG، والبيانات السداسية عشرية، وبيانات التعريف PE، وأدلة API المشبوهة، وميزات هيكلية.

يتجاوز LCC-LLM مرحلة بناء مجموعة البيانات من خلال دمج التحليل الثابت المنظم بواسطة LangGraph مع معرفة الأمن السيبراني متعددة المصادر لدعم الاستنتاج المستند إلى الأدلة حول البرمجيات الخبيثة. يعتمد الإطار الأول على خط أنابيب معزز بالإرجاع من سبع طبقات، وCoVe للتحقق من مؤشرات المساهمة، وبوابة جودة متعددة الأبعاد لتحسين موثوقية الحقائق ودعم قرارات المحللين.

باستخدام بيانات التعلم التدرجي، تم ضبط النماذج مثل DeepSeek-R1-Distill-Qwen-14B وQwen3-Coder-30B-A3B باستخدام أسلوب QLoRA. حققت التقييمات عبر 43 نوعًا من مهام تحليل البرمجيات الضارة متوسط تشابه دلالي قدره 0.634، مع أداء مرتفع في توليد التقارير المنظمة، واستخراج مؤشرات المساهمة، وتقييم الثغرات، واستخراج تكوين البرمجيات الضارة، وكشف أنواع البرمجيات الخبيثة.

في دراسة حالة واقعية باستخدام عينات من MalwareBazaar، حقق الخط المعزز القائم على الأدلة معدل اجتياز 10/10 في التحليل المنظم، مما نتج عنه أدلة CFG/FCG، وتخطيطات MITRE ATT&CK، وإرشادات الكشف، وتقارير جاهزة للمحللين. هذه النتائج تبرز أن التمثيلات المركزية على الشيفرة، والاستناد إلى الاسترجاع، والاستنتاج المعتمد على التحقق تعزز موثوقية وفائدة تشغيل نماذج اللغات الضخمة في إسناد البرمجيات الخبيثة.

إعادة تعريف تحليل البرمجيات الضارة: LCC-LLM وطرقه المبتكرة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

دفاعات إلكترونية مبتكرة: نموذج CyberSecQwen-4B وجعل الأمن الإلكتروني محليًا!

ثورة جديدة في نماذج اللغة الصغيرة: تحسين توليد Bash باعتماد تقنيات القواعد

إطلاق نموذج EMO: ثورة في التدريب المختلط للخبراء من أجل التحول المعياري!