في عالم الذكاء الاصطناعي، كانت جهود الوكلاء البرمجيين (Code Agents) تحظى بإعجاب كبير، حيث استطاعوا حل ما يقارب 65-70% من القضايا المعقدة. ولكن ماذا يحدث عندما يفشل هؤلاء الوكلاء في حل المشكلات، رغم وصولهم إلى الكود الصحيح؟ للإجابة عن هذا السؤال، قمنا بإجراء دراسة جديدة تكشف عن ظاهرة تُعرف باسم "انهيار التماسك" (Coherence Collapse).

قد تبدو الأمور في ظاهرها جيدة، لكن عمق المشكلة يكمن في أن فشل الوكلاء القادرين لا يُشخص بدقة. فبدلاً من استنتاج الأسباب الحقيقية للفشل، يتم إغفالها دون الحصول على بيانات تتبع دقيقة. وهنا يبرز النموذج الجديد الذي أُطلق عليه اسم "TRAJEVAL"، الذي يعمل كأداة تحليلية لتفكيك مسارات الوكلاء إلى مراحل متعددة تتضمن البحث عن التعليمات البرمجية، القراءة، والتعديل.

استندت الدراسة إلى 16,758 مسار وُزِعت عبر ثلاثة بنى معمارية وسبعة نماذج. ووجدت أن الفشل السائد لدى الوكلاء القادرين لا يتعلق فقط بالقدرة على تحديد المواقع الصحيحة، إذ أن 60-69% من الفشل على نماذج مثل SWE-Agent وOpenHands كان رغم أنهم وصلوا إلى الوظائف الصحيحة. ومع ذلك، ينتج عن التعديل نتائج غير دقيقة بالرغم من أن الوكلاء قاموا بالوصول الصحيح.

داخل ما يُعرف بفائض جودة التعديل (Edit-Quality residual)، يبرز "انهيار التماسك" كموضوع رئيسي، حيث يتمكن الوكيل من الوصول إلى التعليمات البرمجية الصحيحة ولكنه يعبث بها في النهاية. في خمس حالات، قام الوكيل بإنتاج تعديل مطابق تمامًا للمرجع الدراسي في منتصف مساره، ليقوم بتدميره لاحقًا. ولحسن الحظ، يمكن استرداد جميع هذه التعديلات باستخدام نقطة تفتيش تعديلات.

في نهاية المطاف، يقدم نموذج النسخة الحرة القائم على الإجماع تحسناً ملحوظاً في القياسات، إذ أظهر زيادة بمقدار 3.0 نقطة مئوية في نسبة النجاح بنسبة Pass@1 على نموذج GPT-5، مما يبرز أهمية التطورات في فهم كيفية عمل الوكلاء البرمجيين وقدرتهم على تجنب مشكلات انهيار التماسك.