في عالم البرمجة المتطور، يلعب الذكاء الاصطناعي دورًا متزايد الأهمية في تطوير أدوات هندسة البرمجيات. إحدى التقنيات الواعدة في هذا المجال هي وكلاء نماذج اللغات الضخمة (LLM) التي أصبحت تعتمد بشكل متزايد في تحديد الملفات التي تحتاج إلى تغيير لحل المشكلات البرمجية.

التقليدي، يعتمد معظم وكلاء الذكاء الاصطناعي على استكشاف المستودعات بطريقة خطية، حيث يزورون دليلًا أو ملفًا واحدًا في كل خطوة. ومع ذلك، يقترح الباحثون أن هذه الطريقة ليست فعّالة، خاصة للتغييرات التي تتوزع على عدة أنظمة فرعية.

لذا، تمت دراسة الفرق بين الاستكشاف التسلسلي الخطي والاستكشاف غير الخطي، الذي يتيح لوكلاء الذكاء الاصطناعي العمل في عملية متوازية موجهة تجاه مجالات معينة. اعتمدت الدراسة على اختبار SWE Bench Pro، مع التركيز بشكل خاص على أداة Ansible كمثال.

تم تطوير نهج لتقييم مشكلات GitHub يعتمد على_commit_base_ واحد، حيث تم مقارنة نظام استكشاف الملفات الخاص بالوكيل المعتمد على المجال بـ LLM أساسي بدون وصول مباشر للمستودع، ونموذج Recursive Language Model (RLM) مع بيئة Python تفاعلية مستدامة، ونموذج CLI خارجي باستخدام Codex 5.5 High.

النتائج أظهرت أن نظام الوكلاء متعدد المجالات حقق أعلى معدل F1 ميكرو بين النماذج الصغيرة (Haiku-class models) بفارق كبير. بينما جاء الأداء الخاص بالوكلاء الذين يركزون على مجال معين في المرتبة الثانية بين النماذج، خلف Codex 5.5 High فقط. ومن ناحية أخرى، أظهر نموذج Sonnet الأكبر أداءً أفضل من حيث دقة التنبؤ، لكنه عانى من ضعف في دقة الاسترجاع.

تظهر الدراسة أيضًا ثلاث ملاحظات إضافية هامة: أولاً، تطور الوثائق يمثل اعتمادًا ضمنيًا لا تزال أي طريقة غير قادرة على حله. ثانياً، يمكن أن يؤدي الوصول البسيط إلى نظام الملفات إلى تدهور تحديد الملفات نتيجة التنبؤ المفرط بملفات الاختبار. أخيراً، لا تُظهر المشاورة القسرية بين عدة وكلاء أي تحسين ملحوظ، بل تزيد من تكلفة التوكنز بشكل كبير.

تُظهر هذه الأبحاث كيف يمكن لتكنولوجيا الذكاء الاصطناعي أن تعيد تعريف كيفية تعامل المطورين مع المشكلات البرمجية المعقدة، وبالتالي تحسين كفاءة العمل البرمجي بشكل عام.

ما رأيكم في استخدام وكلاء الذكاء الاصطناعي في تطوير البرمجيات؟ شاركونا آرائكم في التعليقات!