في عالم البرمجة المتطورة، يبرز السؤال الهام: ماذا تطور الوكلاء البرمجيون (Coding Agents) حقاً؟ في دراسة جديدة، يتعاون الباحثون بين نماذج اللغات الضخمة (Large Language Models) والاستراتيجيات التطورية لتوليد وتعديل واختيار الأكواد بشكل متكرر باستخدام ملاحظات محددة للمهام. وقد أسفرت هذه الأنظمة عن نتائج قوية في مجالات اكتشاف الرياضيات وتصميم الخوارزميات، ولكن يبقى السؤال الجوهري: كيف يمكن تمييز ما يتم تطويره فعليًا؟
عادةً ما يتم تلخيص التقدم بواسطة الدرجة القصوى التي يصل إليها المُقيّم الخاص بالمهمة، ولكن هذه الدرجة قد تعكس آليات متعددة. يمكن أن تكون التطورات ناتجة عن إنشاء هيكل خوارزمي جديد، أو إعادة ضبط استراتيجية حالية، أو دمج أفكار موجودة بالفعل، أو حتى التحجيم الزائد للمقيّم. لذا، لفهم هذه الديناميكيات بشكل أفضل، يجب مراقبة عملية البحث نفسها، وليس فقط نتائجها النهائية.
لذا، تم تقديم EvoTrace، وهي مجموعة بيانات تتبع تطور الأكواد التي تشمل أربع إطارات تطورية، ونماذج تفكير وغير تفكير، و16 مهمة في مجالي الرياضيات وتصميم الخوارزميات. لتحليل هذه التتبعات، تم تطوير EvoReplay، وهي منهجية تعتمد على إعادة التشغيل تستعرض الحالات المحلية للبحث وراء الحلول ذات الدرجات العالية وتختبر تدخلات مسيطر عليها.
تم توثيق كل تعديل في الكود ضمن EvoTrace بنوعٍ من تسعة أنواع شائعة للتعديلات باستخدام نظام مُقيّم يعتمد على نماذج اللغات الضخمة. وقد أظهرت نتائج هذه الدراسات أن معظم مكاسب الدرجات تأتي من مجموعة صغيرة من أنماط التعديل. كما وجد الباحثون نمطًا دورانيًا حتميًا: حوالي 30% من أسطر الكود المضافة خلال البحث هي عبارة عن إعادة تقديم متطابقة تمامًا لأسطر كانت محذوفة سابقًا، وهذا يظهر في كل تجربة.
تقدم هذه النتائج رؤى جديدة حول كيفية نشوء المكاسب في الوكلاء البرمجيين من آليات تختلف نوعياً، بعض منها يرتبط بهياكل خوارزمية جديدة. وبالتالي، تمكننا EvoTrace من تقييم أكثر دقة للوكلاء البرمجيين التطوريين تتجاوز النقاط النهائية للاختبارات.
كيف تطور الوكلاء البرمجيون من خلال التعلم التجريبي؟ اكتشفوا الإجابة المثيرة!
تتطور الوكلاء البرمجيون عبر تفاعلهم مع البيئة بفضل خوارزميات التطور. تقدم دراسة جديدة أدوات مثل EvoTrace لتحليل آلية هذا التطور بشكل أعمق، مما يكشف عن نماذج جديدة وآليات مثيرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
