في عصر الذكاء الاصطناعي المتقدم، استطاعت نماذج اللغات الضخمة (Large Language Models) إثبات قدراتها القوية في أتمتة مراجعة الكود، خاصة في توليد التعليقات. ورغم ذلك، لا زالت تواجه تلك النماذج تحديات كبيرة تتمثل في الأخطاء الوهمية، حيث تُنتج تعليقات غير مرتبطة فعلياً بالكود الفعلي. هذه المشكلة تحُد من قبول نماذج اللغات الضخمة في سير العمل الخاص بمراجعة الكود.

لذا، تم تقديم HalluJudge، نظام مبتكر يهدف إلى اكتشاف هذه الأخطاء الوهمية عبر طرق فعالة وقابلة للتوسع، دون الحاجة إلى مراجع. يعتمد HalluJudge على تقييم الربط بين التعليقات المنتجة وسياقها، ويستخدم أربع استراتيجيات رئيسية تتراوح بين التقييم المباشر والتفكير الهيكلي متعدد الفروع (مثل Tree-of-Thoughts).

لقد أجرينا تقييماً شاملاً لاستراتيجيات التقييم هذه عبر مشاريع برمجية كبيرة من Atlassian، مما أتاح لنا دراسة مدى فعالية HalluJudge وكفاءته من حيث التكلفة. أظهرت النتائج أن تقييم الأخطاء الوهمية من قبل HalluJudge يتسم بفعالية عالية، حيث حقق معدل دقة (F1 Score) يبلغ 0.85 بتكلفة متوسطة تبلغ 0.009 دولار.

وعلى سبيل المثال، 67% من تقييمات HalluJudge كانت متوافقة مع تفضيلات المطورين لتعليقات الكود المولدة فعلياً في بيئة الإنتاج. هذه النتائج تشير إلى أن HalluJudge يمكن أن يكون أداة فعالة للحد من تعرض المطورين لتعليقات وهمية، مما يعزز الثقة في مراجعات الكود المدعومة بالذكاء الاصطناعي.

إذا كنت مطور برمجيات، كيف تساعدك هذه الابتكارات في تطوير عملك؟ شاركنا رأيك في التعليقات!