في عالم الذكاء الاصطناعي (AI)، تعتبر التحسينات العلمية والهندسية عملية طويلة الأمد تتطلب الكثير من الجهد والتكرار. ومع ذلك، كانت المعايير الحالية للموديلات المتطورة تركز في الغالب على الأداء في ردود الفعل الفورية أو لحظات الزمن القصير، متجاهلة الصعوبة التي تواجهها في التحسين المستمر على فترات زمنية ممتدة.

لملء هذه الفجوة، تم تقديم معيار AutoLab، الذي يمثل خطوة جديدة نحو تحسين نظام مغلق على مدى زمني طويل. يتكون AutoLab من 36 مهمة واقعية، تم اختيارها بعناية من قبل خبراء في أربعة مجالات متنوعة: تحسين الأنظمة، الألغاز والتحديات، تطوير النماذج، وتحسين نوى CUDA.

تبدأ كل مهمة مع نقطة انطلاق صحيحة ولكن غير مثالية، حيث يتحدى الوكلاء لتحسين هذه النقطة ضمن ميزانية دقيقة من الوقت. وقد أظهرت تقييمات لـ 17 نموذجًا متقدمًا أن العنصر الحاسم في النجاح ليس جودة المحاولة الأولى، بل الإصرار على إعادة القياس، والتعديل، ودمج الملاحظات التجريبية.

بينما أظهر نموذج claude-opus-4.6 قدرات قوية في تحسين النتائج على المدى الطويل، فإن معظم النماذج المتطورة، بما في ذلك عدة نماذج خاصة، إما تنهي محاولاتها في وقت مبكر أو تستنفد ميزانيتها مع تقدم ضئيل. تسلط هذه النتائج الضوء على أهمية الوعي الزمني والتكرار المستمر في الوكلاء المستقلين.

تسعدنا مشاركة هذا المعيار، أدوات التقييم، ومواد المهام بشكل مفتوح المصدر، لتعزيز الأبحاث نحو وكلاء قادرين حقيقيًا على التكيف مع المدى الطويل.