في عصر الذكاء الاصطناعي، تبرز نماذج اللغات الكبيرة (Large Language Models - LLMs) كقوة مؤثرة في توليد الشيفرة البرمجية. إلا أن هناك تحديًا أساسيًا يكمن في ميل هذه النماذج لتكرار نقاط الضعف الحرجة الموجودة في بيانات التدريب. وعلى الرغم من تقنيات المحاذاة التقليدية، مثل تحسين التعليم الخاضع (Supervised Fine-Tuning - SFT) وتعلم التعزيز (Reinforcement Learning - RL)، فإن هذه الطرق غالبًا ما تفشل في معالجة الثغرات الأمنية المحلية، حيث يمكن لاختيار رمز غير صحيح أن يضعف برنامجاً بالكامل.

لمعالجة هذه القضايا، تم تقديم تقنية جديدة تُعرف باسم Tree-like Self-Play (TSP) التي تعيد تأطير عملية توليد الشيفرة البرمجية الآمنة كعملية اتخاذ قرارات تسلسلية دقيقة. بدلاً من الأساليب التقليدية التي تركز على تعظيم الاحتمالات بشكل أعمى، تقوم TSP ببناء شجرة قرارات تستكشف المسارات المتفرعة، مما يُنتج مسارات "ذهبية" آمنة ونسخًا ضعيفة.

تتضمن الفكرة الأساسية لتقنية TSP أن تعالج نماذج البرمجة أخطائها الخاصة عبر أسلوب يشبه اللعب الذاتي، مما يوفر إشارة تعليمية كثيفة تدفعها لتصحيح نفسها عند نقاط القرار الحرجة التي تظهر فيها الثغرات. أظهرت التجارب أن TSP تحسن بشكل جذري من موثوقية النموذج، حيث بلغ معدل قبول نموذج CodeLlama-7B مع TSP في اختبار الأمن البرمجي 75.8%، متفوقةً على SFT التي حققت 57.0%.

الأهم من ذلك، أن TSP تعزز القدرة على التعميم في مجموعة متنوعة من البيانات. حيث نجحت في تقليل الثغرات الأمنية في فئات جديدة (CWEs) بنسبة 24.5%، بالإضافة إلى نقل المبادئ الأمنية التي تعلمتها من لغتي C/C++ إلى لغات متنوعة مثل Python وGo وJavaScript. هذا يدل على أن TSP لا تقوم فقط بتخزين التصحيحات، بل تستوعب منطق الأمان المجرد الذي لا يعتمد على لغة معينة.

إن هذه الابتكارات تعكس خطوات مهمة نحو بناء نماذج برمجية أكثر أمانًا وموثوقية، مما يمهد الطريق لفرص جديدة في عالم البرمجة المدعوم بالذكاء الاصطناعي.