في عالم البرمجة الحديث، تعد مراجعة الشيفرة (Code Review) خطوة حيوية لضمان الجودة والكفاءة. لكن ومع تزايد عدد تغييرات الشيفرة نتيجة للبرامج الكبيرة وتبني المساعدات البرمجية المدعومة بالذكاء الاصطناعي، أصبحت المراجعة اليدوية أكثر تحديًا وتعقيدًا.

تسليط الضوء على نوعية التغييرات داخل كل تصحيح، مثل إعادة التسمية (Renaming) أو نقل الأسطر (Moves) أو تعديل المنطق (Logic Modifications)، يمكن أن يحسن بشكل كبير كفاءة عملية المراجعة من خلال تمكين تحديد الأولويات والتصفية والأتمتة.

ورغم ذلك، فقد ركزت الأساليب الحالية التي تعتمد على نماذج اللغة الكبيرة (Large Language Models) بشكل كبير على تلخيص الشيفرة (Summarization) وتوليد التعليقات (Comment Generation)، مما جعل مراجعات الشيفرة الهيكلية تُترك دون استكشاف كاف.

في هذا السياق، تُقدم ورقة البحث دراسة منهجية تستخدم نماذج اللغة الكبيرة لتصنيف تغييرات الشيفرة بناءً على تصنيف (Taxonomy-based Labeling). حيث يتم تقديم نظام مزدوج المراحل يخصص الملصقات لتغييرات الشيفرة ومن ثم يقوم بتنقيحها لالتقاط العلاقات الهيكلية والسمات الدلالية مثل انتشار إعادة التسمية وتغييرات النوع.

يعتمد نهجنا على توجيه قليل من الأمثلة (Few-shot Prompting) لإنتاج ملصقات مخصصة وغير متعلقة بلغة معينة، دون الحاجة إلى تعقيد التحليل الثابت التقليدي. لقد قمنا بتقييم أربعة نماذج للغة الكبيرة عبر تكوينات سياقية متعددة على مجموعة بيانات تم تنسيقها يدويًا من التصحيحات الطبيعية والصناعية. وقد حقق أفضل تكوين لنا دقة تصل إلى 84% من استرجاع البيانات و81% من الدقة، مع دقة عالية في استخراج بيانات العلاقات والسمات.

تشير هذه النتائج إلى أن تصنيف الشيفرة المعتمد على نماذج اللغة الكبيرة يمكن أن يكمل التحليل الثابت بفاعلية، مما يمكّن من تيسير عملية مراجعة الشيفرات بأساليب مرنة ومتعددة اللغات وتيسير الأتمتة.