يشهد مجال الكشف عن الثغرات (Vulnerability Detection - VD) تحولاً ملحوظاً بفضل إدماج نماذج اللغات الضخمة (Large Language Models - LLMs) والذي أتاح تحليلاً أكثر تفسيرًا ووعيًا بالسياق. على الرغم من أن تقنيات ما بعد التدريب أظهرت وعودًا في المهام البرمجية العامة، إلا أن تطبيقها المنهجي على كشف الثغرات لا يزال بحاجة إلى مزيد من الاستكشاف.
في هذه الورقة، نقدم أول دراسة شاملة لاستكشاف خط أنابيب ما بعد التدريب لكشف الثغرات باستخدام نماذج اللغات الضخمة. وقد أظهرت النتائج أن التعلم المعزز على السياسة (On-policy RL) باستخدام GRPO يتفوق بانتظام على أساليب التدريب السابق (SFT) وطرق تحسين التفضيل خارج السياسة (Off-policy Preference Optimization)، بالإضافة إلى نماذج VD المتخصصة.
تشير دراستنا إلى إرشادات ما بعد التدريب الخاصة بكشف الثغرات ووجهات نظر تتجاوز الممارسات الشائعة:
1. **تنسيق البيانات**: على عكس الاعتماد الواسع على الإشراف القائم على التبرير في أعمال الكشف عن الثغرات السابقة، ثبت أن استخدام SFT القائم على أخذ العينات المرفوضة أكثر فعالية، حيث يمكن أن يؤدي التبرير إلى إدخال الخيال. في تدريب التعلم المعزز، يؤدي التوزيع غير المتوازن لصعوبات الثغرات إلى تقليص كبير في تغطية البيانات، مما يسبب فقدان أداء لا يمكن تجاهله. يمكن أن يقلل جدولة البيانات بناءً على الأزواج من هذا التأثير جزئيًا.
2. **تفاعلات المرحلة**: على عكس تحسينات التفضيل التي تُطبق عادة على نماذج SFT المدربة بشكل خفيف، أثبت زيادة فترات SFT فوائد مستمرة لتحسين التفضيل خارج السياسة في مهام الكشف. لكن الإفراط في تدريب SFT يكبح الاستكشاف الذاتي في التعلم المعزز على السياسة، مما يحد من مكاسبه.
3. **آليات المكافأة**: التعامل بشكل ساذج مع دقة تصنيف الثغرات كإشارات مكافأة يؤدي إلى اختراق المكافآت. بينما توفر الأحكام الدقيقة حول الأسباب الجذرية توزيعًا أكثر موثوقية للائتمانات. تعزز المكافآت المعتمدة على التخصيص الكفاءة، على حساب جهد إضافي في التصميم والإنتاج.
4. **بروتوكولات التقييم**: تقدم نماذج LLM كحكم تستند إلى تحليل الأسباب الجذرية بديلاً أكثر موثوقية، على الرغم من التباين بين نماذج الحكم.
بناءً على هذه النتائج، يتضح أن هناك فرصة كبيرة لتحسين الكشف عن الثغرات باستخدام التقنيات المبتكرة، مما يجعل هذا المجال ملاذًا مثيرًا للأبحاث المستقبلية. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
من SFT إلى RL: فك شيفرة خط أنابيب ما بعد التدريب لكشف الثغرات باستخدام نماذج اللغات الضخمة
تتحدث الدراسة عن كيفية تطبيق تقنيات ما بعد التدريب لتحسين أداء نماذج اللغات الضخمة في كشف الثغرات. النتائج تظهر أن الأساليب الجديدة تتفوق بشكل ملحوظ على الطرق التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
