في عالم البرمجة المتسارع، تبرز وكالات البرمجة المتطورة على أنها مهندسون مستقلون، مما يثير الحاجة إلى معايير تقييم تلتقط تعقيد تطوير البرمجيات في العالم الحقيقي. معظم البحوث الحالية تركز على تقييم القدرات البرمجية أو البيانات بشكل منفصل، مما يترك فجوة واضحة في فهم كيفية التعامل مع التحديات في البيئات الحقيقية.
ول bridging هذه الفجوة، يأتي البحث الجديد الذي يحمل عنوان CODA-BENCH ليكون الأول من نوعه في تقييم الذكاء البرمجي والبيانات بشكل مشترك في بيئة تعتمد على البيانات بشكل كثيف. تم بناء Sandbox (صندوق رمل) على نظام Linux يعتمد على بيئة Kaggle، حيث يحتوي على مئات مجموعات البيانات. في هذه البيئة، يجب على الوكالات استكشاف فئات الملفات المعقدة لتحديد الموارد اللازمة وتوليد أكواد للمهام التحليلية القائمة على البيانات.
تشمل CODA-BENCH عددًا هائلًا من المهام يصل إلى 1,009 مهمة موزعة على 31 مجتمعًا، مع وجود 980 ملفًا في كل بيئة مهمة، مما يحاكي حجم البيانات الفعلي والضوضاء. ومع ذلك، كشفت التقييمات التي أجريت على الوكالات المتقدمة أن حتى الأنظمة الأكثر أداءً تواجه صعوبات في دمج اكتشاف البيانات مع تنفيذ الأكواد، حيث لم تتجاوز نسبة النجاح 61.1%.
تسلط هذه النتائج الضوء على الفجوة الكبيرة في القدرات الحالية للوكالات البرمجية فيما يتعلق بالمهام الموجهة للبيانات، وتفتح آفاقًا واعدة للبحوث المستقبلية في هذا المجال.
CODA-BENCH: ثورة في تقييم وكالات البرمجة لتحديات البيانات الضخمة!
تقدم CODA-BENCH اختبارًا مبتكرًا يقيم قدرات وكالات البرمجة في بيئات بيانات كثيفة، مما يسلط الضوء على الفجوة الكبيرة في الكفاءة الحالية للأنظمة. النتائج تكشف عن التحديات التي تواجهها الوكالات حتى في أحدث التقنيات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
