شهدت نماذج اللغات الضخمة (Large Language Models) تطوراً ملحوظاً في مجال تطوير البرمجيات، لكن هذا التطور يصطدم بعائق رئيسي وهو نقص مجموعات البيانات القابلة للتحقق. ولمواجهة هذه التحديات، تم تقديم MEnvAgent، وهو إطار عمل مبتكر يتيح إنشاء بيئات قابلة للتحقق عبر لغات برمجية متعددة.
يعتمد MEnvAgent على بنية تخطيط-تنفيذ-تحقق متعددة الوكلاء، مما يمكنه من معالجة حالات فشل الإنشاء بشكل تلقائي. كما يتميز بنظام مبتكر لإعادة استخدام البيئات، مما يساعد في تقليل الأعباء الحاسوبية من خلال تصحيح البيئات التاريخية بشكل تدريجي.
تضمنت التقييمات استخدام MEnvBench، وهو معيار جديد يتضمن 1000 مهمة عبر 10 لغات برمجية، حيث أثبت MEnvAgent تفوقه على المعايير التقليدية بزيادة تصل إلى 8.6% في معدلات النجاح وتحقيق تخفيض بنسبة 43% في التكاليف الزمنية.
كما تمكن الفريق من إنشاء MEnvData-SWE، الذي يعد أكبر مجموعة بيانات مفتوحة المصدر تحتوي على بيئات Docker قابلة للتحقق، بالإضافة إلى مسارات الحلول التي تضمن تحقيق أداء متسق في مهام تطوير البرمجيات عبر مجموعة واسعة من النماذج.
يمكنكم الاطلاع على الكود والمعيار ومجموعة البيانات عبر رابط GitHub: https://github.com/ernie-research/MEnvAgent.
MEnvAgent: البنية متعددة اللغات لتطوير بيئات البرمجيات القابلة للتحقق
يقدم MEnvAgent إطاراً مبتكراً يساهم في إنشاء بيئات برمجية قابلة للتحقق، مما يعزز من فعالية نماذج الذكاء الاصطناعي في مجال تطوير البرمجيات. النتائج أظهرت تحسينات ملحوظة في معدلات النجاح وتقليل في الوقت المستغرق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
