في طفرة جديدة من أبحاث الذكاء الاصطناعي، يتناول بحث حديث موضوعاً مثيراً يتعلق بكفاءة نماذج اللغات الضخمة (Large Language Models) في إصلاح البرمجيات تلقائياً (Automated Program Repair) ومخاطر تسرب البيانات المتعلقة بها. رغم انطباعات الأداء الإيجابية للنماذج المستخدمة، إلا أن هناك تلميحات بوجود تسرب في البيانات يعرض هذه النتائج للخطر.
تقوم الدراسة بالتحقيق في إمكانية تسرب البيانات الناتج عن ذاكرة النماذج، من خلال دمج اختبار التحول (Metamorphic Testing) مع قياس احتمالية السجلات المفقودة (Negative Log-Likelihood - NLL). فقد تم إنشاء مجموعة من المراجع المتنوعة باستخدام تحويلات تحافظ على المعنى لمجموعتين من البيانات الشهيرة، هما Defects4J وGitBug-Java.
أظهرت التجارب أن جميع نماذج اللغة الضخمة التي تم تقييمها تعاني من انخفاض ملحوظ في معدلات النجاح في توليد التصحيحات على المرجع المعدل، حيث تراوحت النسب بين -4.1% لـ GPT-4o و -15.98% لـ Llama-3.1. كما أكدت النتائج وجود علاقة قوية بين الانخفاض في الأداء وقياس NLL على المراجع الأصلية، مما يدعم فرضية أن النماذج تحقق نتائج أفضل على الأمثلة التي تحتفظ بها في ذاكرتها.
إذاً، يُظهر دمج اختبار التحول مع NLL أنه يوفر دليلاً أقوى وأكثر موثوقية على تسرب البيانات، مما يساعد في تقليل تأثيراته في تقييم تقنيات إصلاح البرمجيات المعتمدة على نماذج اللغة الضخمة. هذا البحث يشكل خطوة مهمة نحو تحسين طرق تقييم أداء نماذج الذكاء الاصطناعي ويثير تساؤلات حول كيفية تطوير هذه التقنيات بشكل أكثر فعالية وشفافية.
هل يكشف اختبار التحول عن عيوب الذاكرة في نماذج اللغات الضخمة؟
تقدم الدراسة الجديدة رؤية مثيرة حول كيفية تأثير تقنية اختبار التحول (Metamorphic Testing) على تقييم أداء نماذج اللغات الضخمة (LLMs) في إصلاح البرمجيات تلقائياً. النتائج تشير إلى وجود تسرب بيانات يؤثر سلباً على تقديرات الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
