تتطور نماذج الذكاء الاصطناعي الكبيرة (LLM) بسرعة من مجرد مساعدات برمجية إلى أنظمة هندسة برمجيات مستقلة. ورغم ذلك، فإن طرق التقييم الحالية تظل محصورة في المعايير الساكنة والمعزولة والتي لا تعكس تعقيد بيئات الإنتاج الحقيقية. إن الأداء الذي يظهره النموذج عند إجراء اختبارات بسيطة قد لا يمثل قدرته الفعلية في ظروف العمل الواقعية.

لذا، نقدم إليكم RAMP، وهو بنية تحتية قائمة على الإنتاج تهدف إلى تقييم فعالية وكفاءة الوكلاء البرمجيين على المدى الطويل. يتم بناء RAMP على منصة YatCC المتكاملة، وهو يوفر هيكل تقييم موحد يتضمن واجهات تنسيق وتنفيذ معيارية.

تقدم RAMP أعباء عمل تتعلق ببناء المجمعات البرمجية مع اعتماد تسلسلي وتعقيدات في تفاعلات أدوات البرمجة. بالإضافة إلى ذلك، يشتمل النظام على آلية استرداد مصنفة لتحليل سلوك التنفيذ في حالات الفشل الجزئي.

الجدير بالذكر أن الدراسة شملت تقييمات زمنية عبر 15 نموذجاً رائجاً، وقد أظهرت نتائج التقييم تدهوراً كبيراً في القدرة لم يكن مرئياً في المعايير التقليدية. على سبيل المثال، انخفضت معدل إكمال المهام من 100% في المرحلة الأولى إلى 20% فقط في المرحلة النهائية، ولم تنجح أي من النماذج في إكمال دورة العمل بأكملها.

أظهرت التحليلات الزمنية انتشار الفشل بشكل منهجي وعدم كفاءة كبيرة في الموارد، حيث اختلفت التكاليف الحسابية بين النماذج المتشابهة بمقدار يصل إلى ثلاثة أوامر رقمية. هذه النتائج تشير إلى أن RAMP يشكل تقدماً في تقييم نماذج الذكاء الاصطناعي، نحو تقييم مستمر وملحوظ في الزمن، ومبني على إنتاج العمل العملي.