في عالم تطوير البرمجيات، تبرز نماذج اللغات الضخمة (Large Language Models) كأدوات قوية لتوليد الشفرات البرمجية. ومع ذلك، لا تخلو هذه التكنولوجيا من العيوب، حيث يُنتج عنها أحيانًا شفرات تحتوي على أخطاء منطقية وثغرات أمنية.

تشير دراسة جديدة إلى أن هذه الإخفاقات ليست مجرد قيود لنموذج الذكاء الاصطناعي نفسه، بل ترتبط بشكل متزايد بجودة بيانات التدريب التي يتم استخدامها. بهدف فهم هذه العلاقة المعقدة، قامت الدراسة بمراجعة منهجية شاملة لـ 114 دراسة رئيسية، ساعيةً لاستكشاف كيف يمكن أن تؤثر مشكلات جودة بيانات التدريب على جودة الشفرات المولدة.

تم تطوير تصنيف موحد يصنف مشاكل جودة الشفرات المولدة عبر تسعة أبعاد، بالإضافة إلى تصنيفات لمشكلات جودة بيانات التدريب التي تشمل سمات متعلقة بالكود وغير متعلقة بالكود. وبناءً على هذا التصنيف، تم وضع إطار سببي يوضح 18 آلية شائعة لنقل المشكلات من بيانات التدريب إلى الشفرات البرمجية.

تشمل الابتكارات الحديثة تكتيكات متطورة للكشف والتخفيف من المخاطر، مما يتيح الانتقال من نموذج الجودة التفاعلي، القائم على الفلاتر، إلى إدارة استباقية تركز على البيانات وإصلاح مغلق الدائرة. كما تم التعرف على التحديات المفتوحة وتحديد اتجاهات البحث المستقبلية لتطوير نماذج LLMs موثوقة من خلال تحسين إدارة البيانات والتقييم المستمر.

للمزيد من التفاصيل، يُمكنك زيارة [https://github.com/SYSUSELab/From-Data-to-Code].

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.