في عالم [البرمجة](/tag/البرمجة) المتطورة، يبرز السؤال الهام: ماذا [تطور](/tag/تطور) [الوكلاء البرمجيون](/tag/[الوكلاء](/tag/الوكلاء)-البرمجيون) (Coding Agents) حقاً؟ في [دراسة](/tag/دراسة) جديدة، يتعاون الباحثون بين [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) والاستراتيجيات التطورية لتوليد وتعديل واختيار الأكواد بشكل متكرر باستخدام ملاحظات محددة للمهام. وقد أسفرت هذه الأنظمة عن نتائج قوية في مجالات [اكتشاف](/tag/اكتشاف) [الرياضيات](/tag/الرياضيات) وتصميم الخوارزميات، ولكن يبقى السؤال الجوهري: كيف يمكن تمييز ما يتم تطويره فعليًا؟

عادةً ما يتم [تلخيص](/tag/تلخيص) التقدم بواسطة الدرجة القصوى التي يصل إليها المُقيّم الخاص بالمهمة، ولكن هذه الدرجة قد تعكس [آليات](/tag/آليات) متعددة. يمكن أن تكون التطورات ناتجة عن إنشاء هيكل خوارزمي جديد، أو إعادة ضبط [استراتيجية](/tag/استراتيجية) حالية، أو دمج [أفكار](/tag/أفكار) موجودة بالفعل، أو حتى التحجيم الزائد للمقيّم. لذا، لفهم هذه الديناميكيات بشكل أفضل، يجب [مراقبة](/tag/مراقبة) عملية [البحث](/tag/البحث) نفسها، وليس فقط نتائجها النهائية.

لذا، تم تقديم EvoTrace، وهي [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) [تتبع](/tag/تتبع) [تطور](/tag/تطور) الأكواد التي تشمل أربع إطارات تطورية، ونماذج [تفكير](/tag/تفكير) وغير تفكير، و16 مهمة في مجالي [الرياضيات](/tag/الرياضيات) وتصميم [الخوارزميات](/tag/الخوارزميات). لتحليل هذه التتبعات، تم [تطوير](/tag/تطوير) EvoReplay، وهي منهجية تعتمد على إعادة التشغيل تستعرض الحالات المحلية للبحث وراء الحلول ذات الدرجات العالية وتختبر [تدخلات](/tag/تدخلات) مسيطر عليها.

تم [توثيق](/tag/توثيق) كل تعديل في [الكود](/tag/الكود) ضمن EvoTrace بنوعٍ من تسعة أنواع شائعة للتعديلات باستخدام نظام مُقيّم يعتمد على [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة). وقد أظهرت نتائج هذه الدراسات أن معظم مكاسب الدرجات تأتي من مجموعة صغيرة من أنماط [التعديل](/tag/التعديل). كما وجد الباحثون نمطًا دورانيًا حتميًا: حوالي 30% من أسطر [الكود](/tag/الكود) المضافة خلال [البحث](/tag/البحث) هي عبارة عن إعادة تقديم متطابقة تمامًا لأسطر كانت محذوفة سابقًا، وهذا يظهر في كل تجربة.

تقدم هذه النتائج [رؤى](/tag/رؤى) جديدة حول كيفية نشوء المكاسب في [الوكلاء](/tag/الوكلاء) البرمجيين من [آليات](/tag/آليات) تختلف نوعياً، بعض منها يرتبط بهياكل [خوارزمية](/tag/خوارزمية) جديدة. وبالتالي، تمكننا EvoTrace من [تقييم](/tag/تقييم) أكثر [دقة](/tag/دقة) للوكلاء البرمجيين التطوريين تتجاوز النقاط النهائية للاختبارات.