في عالم هندسة البرمجيات، تُعتبر مهمة إعادة إنتاج الثغرات على مستوى المستودعات من التحديات المُعقّدة. يتطلب تنفيذ هذه المهمة من الوكيل فحص قاعدة الشيفرة، واستنتاج قواعد الإدخال التي تؤدي إلى مسار ضعيف، ثم بناء إثبات للمفهوم (PoC) والتحقق من اختفاء العطل بعد إصلاح البرمجية.

تظهر الأبحاث أن الوكلاء المستندون إلى نماذج اللغات الكبيرة (Large Language Models) قادرون على تنفيذ هذه الخطوات بنجاح عند اتباع استراتيجية صحيحة، لكنهم غالبًا ما يفشلون في اختيار الاستراتيجية المناسبة.

تطرح الدراسة الجديدة فكرة أن التركيز على الاستراتيجية بدلاً من مسار العمل الكامل يمثل وحدة التعلم الأنسب لوكلاء هندسة البرمجيات. لقد تم تقديم إطار ماسترمايند، الذي يعتمد على حلقتين تعليميتين لتفكيك التعلم الاستراتيجي القابل للنقل عن تجربة المهمة المحددة. يتلقى المخطط القابل للتدريب الرؤى الاستراتيجية القابلة لإعادة الاستخدام عبر استراتيجيات التعلم، بينما تحافظ حلقة الخبرة على سجلات الاستراتيجية المحلية التي توجه المحاولات اللاحقة.

تتضمن التجارب التي أُجريت على CyberGym 260 مهمة تدريب و200 مهمة تقييم. باستخدام نموذج GPT-5.5 كوكيل ثابت، حققت ماسترمايند معدل نجاح بلغ 84.5%، متفوقة على الأداء التقليدي (60.0%) وأفضل تقنيات العينة (63.0%). كما تحسن أداء نماذج GPT-5.4 وGLM~5.1 بفضل نفس المخطط.

تشير هذه النتائج إلى أن تعلم استراتيجيات عالية المستوى يمثل آلية فعالة وقابلة للنقل لتحسين وكلاء هندسة البرمجيات على نطاق المستودعات.