في عالم تطوير البرمجيات السريع، حيث تسهم وكالات الذكاء الاصطناعي في تغيير طريقة كتابة الشيفرة، تبرز الحاجة إلى معايير دقيقة لتقييم أداء هذه الوكالات. هنا يأتي دور OmniCode، المعيار الجديد القادر على تقييم وكالات تطوير البرمجيات بشكل شامل ومتنوع.
يعتمد OmniCode على 1794 مهمة موزعة بين لغات برمجة مرموقة مثل بايثون (Python) وجافا (Java) وC++، ويشمل أربع فئات رئيسية: إصلاح الأخطاء (bug fixing)، إنشاء الاختبارات (test generation)، مراجعة الشيفرة وإصلاحات النمط (style fixing). هذا التنوع يتجاوز المهام التقليدية التي تركز على مجالات محدودة مثل البرمجة التنافسية (competitive programming) أو توليد التصحيحات (patch generation).
لقد تم تصميم جميع المهام الموجودة في OmniCode بعناية: كل مهمة تم التحقق منها يدوياً للتأكد من خلوها من مشاكل غير واضحة، بالإضافة إلى أنها تم تصميمها بعيداً عن مخاطر تسرب البيانات. في اختبارها مع أطر العمل التابعة لوكالات البرمجة المشهورة مثل SWE-Agent، أظهرت النتائج تفوقاً في بعض المهام، مثل إصلاح الأخطاء باستخدام بايثون، لكنها تعثرت في مجالات مثل إنشاء الاختبارات وبلغات أخرى مثل C++ وجافا.
على سبيل المثال، مسجل SWE-Agent حقق نتيجة قصوى تبلغ 25.0% في إنشاء الاختبارات بلغة C++ مع DeepSeek-V3.1. يهدف OmniCode إلى تقديم معيار قوي يحفز تطوير وكالات قادرة على الأداء الجيد عبر مختلف جوانب تطوير البرمجيات.
يمكنك معرفة المزيد عن OmniCode وتحميل الكود والبيانات من [رابط GitHub]. هل تعتقد أن تطوير معايير جديدة مثل OmniCode سيحدث ثورة في صناعة البرمجيات؟ شاركونا آرائكم!
OmniCode: معيار جديد لتقييم وكالات تطوير البرمجيات وتحسين الأداء
تقدم OmniCode معياراً مبتكراً لتقييم وكالات تطوير البرمجيات، كاشفةً عن أهمية تنوع المهام في تحسين أداء هذه الوكالات. يتضمن المعيار 1794 مهمة عبر ثلاث لغات برمجة رئيسية، مما يمثل خطوة قوية نحو تطوير أكثر فعالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
