هل تعلم أن نماذج اللغات الضخمة (Large Language Models) قد أصبحت جزءاً أساسياً لا يتجزأ من تطوير البرمجيات الحديثة؟ بفضل هذه النماذج، أصبح بالإمكان توليد الأكواد تلقائيًا وبشكل موسع، غير أن التحقق من صحة الكود المُولد لا يزال تحديًا كبيرًا. حتى الآن، تقتصر الأساليب المتاحة على الاعتماد على توافق ديناميكي بين عدة مرشحات للكود، مما يجعل هذه الطرق مكلفة وصعبة التوسع، أو استخدام التفكير الثابت المعرض للأخطاء الديناميكية وتحامل الترتيب.

في دراستنا الجديدة، نقدم طريقة TRAILS (استدلال موجه عبر المدخلات والمواصفات) والتي تنطلق من ضرورة ربط استدلال نماذج اللغات الضخمة بواسطة أزواج (مدخل، مخرج) واضحة. تبدأ هذه الطريقة بتوليد مدخلات اختبار متنوعة عبر تقسيم الفئات بناءً على المواصفات، ثم تقوم بتنفيذها على الكود المرشح وتطلب من النماذج تقييم ما إذا كانت الأزواج الناتجة تتوافق مع المواصفات - دون الحاجة إلى التفكير في الكود نفسه.

يتم تجميع الدرجات عبر المدخلات لتحديد ما إذا كان البرنامج على الأرجح صحيحًا. لقد قمنا بتقييم هذه الطريقة باستخدام مجموعتين من البيانات، LiveCodeBench وCoCoClaNeL، عبر ثلاثة نماذج لغوية (Qwen3Coder-30B، Devstral-Small-24B، وOlmo3.1-Instruct)، ومقارنتها بأساليب HoarePrompt وأساسيات Zero-Shot Chain-of-Thought.

أظهرت TRAILS تحسنًا في معامل الارتباط ماثيو (Matthew Correlation Coefficient) بنسبة تصل إلى 39% مقارنةً بأسلوب Zero-Shot COT، كما أثبتت تفوقاً مستمراً على HoarePrompt. بالإضافة إلى الدقة، تُظهر TRAILS استقرارًا أكبر عبر الجولات المزروعة، مما يقلل من حساسية عدم تحديد النماذج اللغوية، وتهيئ تصنيفات صحيحة لمجموعة أكبر من عينات الأكواد الفريدة مقارنة بالأساليب المنافسة.

هل أنت مستعد لاستكشاف تأثير تزدهر بها سلسلة التطورات هذه على تطوير البرمجيات؟ ماذا عن دور الذكاء الاصطناعي في ضمان جودة الكود؟ شاركونا آرائكم في التعليقات!