في عالم البرمجيات الحديث، يزداد الاعتماد على وكلاء الذكاء الاصطناعي (AI coding agents) لتوليد الأكواد الاختبارية بالتزامن مع الأكواد الإنتاجية ضمن طلبات السحب (pull requests) في المشاريع مفتوحة المصدر. دراسة حديثة كشفت عن وجود أكثر من 932,000 طلب سحب يؤلفها وكلاء الذكاء الاصطناعي عبر 116,000 مستودع، لكن يبقى السؤال: هل تحتوي هذه الملفات الاختبارية على منطق تحقق فعلي؟

تعتبر الملفات الاختبارية التي تفتقر إلى التأكيدات الواضحة كالأكواد التي تُنفذ دون تأكيد سلوكها، مما يعني أن تقييم الجودة القائم على وجود الملفات الاختبارية قد يبالغ في قوة التحقق. وتهدف هذه الدراسة إلى مساعدة الممارسين على تقييم قوة التحقق من التحديثات التي ألفها الوكلاء عن طريق تحديد إشارات الدليل (oracle signals) ورابطها مع نتائج الدمج (merge outcomes) وجهود المراجعة.

أجرينا دراسة تجريبية على 86,156 ملف اختبار من 33,596 طلب سحب أنتجها خمسة وكلاء مختلفين: OpenAI Codex، GitHub Copilot، Devin، Cursor، وClaude Code. وتبين أن 80.2% من الملفات الاختبارية تحتوي إما على إشارات ضعيفة أو لا تحتوي على أي إشارات دليلة واضحة. على الرغم من أن معدلات الدمج الخام كانت أقل بالنسبة لطلبات السحب التي تحتوي على إشارات قوية، إلا أن تحليل الانحدار أظهر أن وجود إشارات قوية يزيد بشكل كبير من احتمالية الدمج.

تشير نتائجنا إلى أن الاعتماد فقط على عدد الملفات الاختبارية قد يضاعف تقدير قوة التحقق، مما يستدعي من الممارسين اعتماد فحوص جودة واعية للإشارات لتقييم المساهمات المؤلفة من قبل الوكلاء بشكل أدق.