في دراسة أخيرة منشورة على arXiv، تم تسليط الضوء على مسألة حرجة تتعلق بسياق المستودعات القديمة، حيث تم التحقيق فيما إذا كانت المقاطع المسترجعة من مستودعات قديمة تُعد ضوضاء غير ضارة أم أنها تساهم في إدخال كود غير متوافق مع الحالة الحالية للمشروع.
أهداف الدراسة:
قام الباحثون بإجراء دراسة تشخيصية منضبطة على مجموعة تتكون من 17 نموذجاً من التغييرات في توقيعات المساعدة من خمسة مستودعات برمجية بلغة بايثون. تمت مقارنة النتائج تحت ظروف استرجاع متنوعة: فقط الحالية، فقط القديمة، بدون استرجاع، ومجموعات مختلطة، مما أتاح فهم التأثير الفعلي للبيانات المسترجعة.
النتائج:
أظهر البحث أن استرجاع البيانات القديمة يمكن أن يؤدي فعلاً إلى مراجع قديمة في 15 من 17 نموذجًا من نماذج Qwen2.5-Coder-7B-Instruct و13 من 17 من نماذج gpt-4.1-mini. أي أن عمليات الاسترجاع القديمة أظهرت زيادة ملحوظة في الأخطاء بنسبة 88.2% و76.5% على التوالي مقارنة بالاسترجاع الحالي فقط. بينما أثبتت حالة عدم الاسترجاع عدم وجود أي مراجع قديمة، إلا أن النموذج حقق نجاحاً في إكمال واحد فقط من بين 17.
علاوةً على ذلك، أظهر نماذج الاسترجاع المختلط أن إضافة دليل حالي صحيح يمكن أن ينقذ في الغالب حالات الفشل الناتجة عن الاسترجاع القديم.
الاستنتاج:
تظهر هذه الدراسة أن الموثوقية الزمنية لسياق المستودعات المسترجعة تعتبر متغير تشخيصي بارز لضمان قوة نماذج إكمال الكود. إن وجود سياق قديم يمكن أن يؤثر بشكل مباشر على أداء النماذج ويعزز الأخطاء بدلاً من إزالة الأدلة المفيدة.
ما هي آرائكم حول أهمية تحديث البيانات المسترجعة في مشاريع البرمجة؟ شاركونا في التعليقات.
