شهدت نماذج اللغات الضخمة (Large Language Models) تطوراً ملحوظاً في مجال تطوير البرمجيات، لكن هذا التطور يصطدم بعائق رئيسي وهو نقص مجموعات البيانات القابلة للتحقق. ولمواجهة هذه التحديات، تم تقديم MEnvAgent، وهو إطار عمل مبتكر يتيح إنشاء بيئات قابلة للتحقق عبر لغات برمجية متعددة.

يعتمد MEnvAgent على بنية تخطيط-تنفيذ-تحقق متعددة الوكلاء، مما يمكنه من معالجة حالات فشل الإنشاء بشكل تلقائي. كما يتميز بنظام مبتكر لإعادة استخدام البيئات، مما يساعد في تقليل الأعباء الحاسوبية من خلال تصحيح البيئات التاريخية بشكل تدريجي.

تضمنت التقييمات استخدام MEnvBench، وهو معيار جديد يتضمن 1000 مهمة عبر 10 لغات برمجية، حيث أثبت MEnvAgent تفوقه على المعايير التقليدية بزيادة تصل إلى 8.6% في معدلات النجاح وتحقيق تخفيض بنسبة 43% في التكاليف الزمنية.

كما تمكن الفريق من إنشاء MEnvData-SWE، الذي يعد أكبر مجموعة بيانات مفتوحة المصدر تحتوي على بيئات Docker قابلة للتحقق، بالإضافة إلى مسارات الحلول التي تضمن تحقيق أداء متسق في مهام تطوير البرمجيات عبر مجموعة واسعة من النماذج.

يمكنكم الاطلاع على الكود والمعيار ومجموعة البيانات عبر رابط GitHub: https://github.com/ernie-research/MEnvAgent.