في عصر تتزايد فيه الاعتماديات على الذكاء الاصطناعي في مختلف المجالات، تبرز الروبوتات الآلية لمراجعة الشيفرة البرمجية (Automated Code Review Bots) كأداة مساعدة حيوية للمطورين خلال عملية مراجعة طلبات السحب (Pull Request). ولكن، مع تزايد اعتماد هذه الروبوتات، يطرح السؤال: كيف يمكن تقييم فعالية التعليقات التي تنتجها هذه الروبوتات بشكل موثوق وعلى نطاق واسع؟

بدايةً، نحتاج إلى فهم أن تقييم تعليقات الروبوتات غالبًا ما يعتمد على تصرفات المطورين وتعليقاتهم، التي تتأثر بعوامل سياقية وتنظيمية، مما يجعل استخدامها كحقيقة موضوعية مُعقّدة.

في دراسة جديدة أجرتها مجموعة من الباحثين، تم تحليل مجموعة بيانات صناعية من شركة Beko تضم 2,604 تعليقاً مولّداً بواسطة الروبوتات، تم تصنيفها من قبل مهندسي البرمجيات كـ "تم إصلاحه" أو "لن يتم إصلاحه". تم استخدام طريقتين للتقييم الآلي، هما G-Eval وأنبوب LLM كـ "حكم"، لمقارنة النتائج مع العلامات التي قدمها المطورون.

بينما تم استخدام كل من القرارات الثنائية وصيغة مقياس ليكرت (0-4) لتحقيق مقارنة محكمة، أظهرت النتائج أن كلا الاستراتيجيتين للتقييم حققت توافقاً متوسطاً فقط مع العلامات البشرية حيث تراوحت نسب الاتفاق من حوالي 0.44 إلى 0.62، مع تباين واضح بين النماذج المختلفة وبين الصيغ الثنائية وصيغ ليكرت.

تشير هذه النتائج إلى أن هناك قيود عملية في تحقيق تقييم شامل للتعليقات التي تنتجها الروبوتات في السياقات الصناعية. إن تصرفات المطورين، مثل حَلّ التعليقات أو تجاهلها، تعكس ليس فقط جودة التعليق، بل أيضاً القيود السياقية وقرارات الأولويات والديناميكيات العملية التي يصعب توثيقها من خلال الرسائل الثابتة.

من خلال مقابلة لاحقة مع مدير هندسة البرمجيات، تم التأكيد على أن سلوك تسمية المطورين يتأثر بشكل كبير بالضغوط العملية والقيود التنظيمية، مما يعزّز التحديات المرتبطة بمعاملة هذه الإشارات كحقائق موضوعية.