في عالم الذكاء الاصطناعي، يعدّ فهم الوكلاء البرمجيين (Code Agents) لسياق المستودعات البرمجية أحد التحديات الكبيرة التي تواجه الباحثين والمطورين. ماذا لو قلنا إن النجاح في المهام المرحلية مثل حل المشكلات لا يعكس دائماً القدرة الحقيقية على التفكير في سياق المستودع؟ هنا تأتي أهمية RepoMirage، أحدث ادوات التقييم المبتكرة.
RepoMirage هو مجموعة من الاختبارات الفريدة والتي تهدف إلى تعزيز ما يُعرف بالتفكير السياقي في المستودعات. من خلال استخدام أدوات التشويش (Perturbations) كأداة تشخيصية، تقدم RepoMirage تقييمًا مزدوجًا يسلط الضوء على القدرات الجوهرية للوكلاء البرمجيين.
المرحلة الأولى، المعروفة باسم RepoMirage-Perturb، تقوم بتطبيق ثلاثة أنواع من التشويشات التي تحافظ على المعاني، مما يسفر عن تراجع ملحوظ في الأداء عندما تحتاج الحلول الصحيحة إلى الوصول إلى سياق أوسع. ولتوسيع نطاق التقييم، تقدم المرحلة الثانية، RepoMirage-Extend، تحديات جديدة تتجاوز مجرد حل المشكلات، حيث لوحظ انخفاض متوسط الأداء من 66.8% في الإعداد الأصلي إلى 25.3%.
هذه النتائج تشير إلى فجوة ملحوظة في التفكير السياقي للمستودعات لدى وكلاء البرمجيات. كما تكشف تحليلات المسار مزيدًا من المعلومات حول الطريقة التي يبحث بها الوكلاء في سياقات أوسع دون قدرتهم على تحويل هذه المعلومات إلى بيانات هيكلية فعالة.
استجابةً لهذه التحديات، تم تقديم RepoAnchor، نموذج عمل يركز أولاً على الهيكل، مما يفصل بين استكشاف المستودع وحل المشكلات. أظهرت النتائج أن توفير هيكل واضح يمكنك أن يؤدي إلى تحسينات ملحوظة في الأداء.
باختصار، يكشف RepoMirage عن ثغرة تم تجاهلها سابقًا في التفكير السياقي للمستودعات، مما يشير إلى أن أساليب جديدة تأخذ في الاعتبار الهيكل يمكن أن تحسن من أداء الوكلاء البرمجيين.
RepoMirage: هل يمكن لوكلاء البرمجيات فهم سياق المستودعات البرمجية؟
تم تقديم RepoMirage كأداة جديدة لاختبار قدرة وكلاء البرمجيات على فهم المعلومات السياقية في المستودعات البرمجية. تكشف النتائج عن ضعف في الأداء عند مواجهة تحديات جديدة، مما يبرز فجوة في التفكير السياقي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
