في عالم البرمجة المتطور بسرعة، تُعتبر نماذج اللغات الضخمة (Large Language Models - LLMs) واحدة من أبرز الابتكارات التي أحدثت ثورة في كيفية التعامل مع الأكواد البرمجية. ولكن إلى أي مدى تستطيع هذه النماذج تعديل وتصحيح الأكواد التي تولدها؟

أظهرت الأبحاث الأخيرة على منصّة arXiv أن الجهود الحالية في تقييم أداء LLMs غالباً ما تركز على دقة المحاولة الواحدة، متجاهلة عنصر بالغ الأهمية: عملية التحسين التكرارية. في الواقع، البرمجة الحقيقية تعتمد على هذه العملية، حيث يتلقى المبرمجون ملاحظات مكتوبة ودقيقة لتصحيح الأخطاء.

تستكشف هذه الدراسة النظامية قدرة LLMs على تصحيح الأكواد الخاصة بهم من خلال استغلال ردود الفعل المستندة إلى تنفيذ الأكواد. تم تطبيق هذا الإطار على أربعة نماذج رئيسية ولغتين برمجيتين شهيرتين، مع تقييم الأداء في إطار تحسين تكراري. إذ يحصل النموذج على رسائل خطأ من المترجم وملاحظات من حالات الاختبار بعد كل محاولة.

تعرف الدراسة أيضًا على مقاييس جديدة لتقييم فشل الأكواد، وتحليل أنماط التصحيح، ومقارنة فعالية النماذج التي تعتمد على التفكير والنماذج غير القائمة على التفكير. النتائج تشير إلى أن النماذج التي تعتمد على التفكير تحقق تحسينات ملحوظة على مدار التجارب، حيث تتفوق بشكل كبير على نظرائها غير القائمين على التفكير في استغلال التغذية الراجعة.

علاوة على ذلك، كشفت النتائج أن الأخطاء النحوية وأخطاء وقت التشغيل أسهل بكثير في المعالجة مقارنة بالفشل المنطقي أو الخوارزمي. وهذا يفتح أفقًا جديدًا لفهم كيف يمكن تحسين عمليات البرمجة وتحقيق تجارب برمجية أكثر كفاءة.

ما رأيكم في هذه التطورات المثيرة؟ كيف يمكن أن تؤثر على أساليبك في البرمجة؟ شاركونا تجاربكم وآرائكم في التعليقات.