هل يكشف اختبار التحول عن عيوب الذاكرة في نماذج اللغات الضخمة؟

في طفرة جديدة من أبحاث الذكاء الاصطناعي، يتناول بحث حديث موضوعاً مثيراً يتعلق بكفاءة نماذج اللغات الضخمة (Large Language Models) في إصلاح البرمجيات تلقائياً (Automated Program Repair) ومخاطر تسرب البيانات المتعلقة بها. رغم انطباعات الأداء الإيجابية للنماذج المستخدمة، إلا أن هناك تلميحات بوجود تسرب في البيانات يعرض هذه النتائج للخطر.

تقوم الدراسة بالتحقيق في إمكانية تسرب البيانات الناتج عن ذاكرة النماذج، من خلال دمج اختبار التحول (Metamorphic Testing) مع قياس احتمالية السجلات المفقودة (Negative Log-Likelihood - NLL). فقد تم إنشاء مجموعة من المراجع المتنوعة باستخدام تحويلات تحافظ على المعنى لمجموعتين من البيانات الشهيرة، هما Defects4J وGitBug-Java.

أظهرت التجارب أن جميع نماذج اللغة الضخمة التي تم تقييمها تعاني من انخفاض ملحوظ في معدلات النجاح في توليد التصحيحات على المرجع المعدل، حيث تراوحت النسب بين -4.1% لـ GPT-4o و -15.98% لـ Llama-3.1. كما أكدت النتائج وجود علاقة قوية بين الانخفاض في الأداء وقياس NLL على المراجع الأصلية، مما يدعم فرضية أن النماذج تحقق نتائج أفضل على الأمثلة التي تحتفظ بها في ذاكرتها.

إذاً، يُظهر دمج اختبار التحول مع NLL أنه يوفر دليلاً أقوى وأكثر موثوقية على تسرب البيانات، مما يساعد في تقليل تأثيراته في تقييم تقنيات إصلاح البرمجيات المعتمدة على نماذج اللغة الضخمة. هذا البحث يشكل خطوة مهمة نحو تحسين طرق تقييم أداء نماذج الذكاء الاصطناعي ويثير تساؤلات حول كيفية تطوير هذه التقنيات بشكل أكثر فعالية وشفافية.

هل يكشف اختبار التحول عن عيوب الذاكرة في نماذج اللغات الضخمة؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

هل تتعذر عليك الحصول على جهاز Mac Mini؟ تعرف على السبب وراء التأخير في التوريد!

هل يحدد OpenAI مستقبل الأمن السيبراني؟ الكشف عن أداة GPT-5.5 Cyber المبتكرة!

إيلون ماسك يكشف السر: كيف قامت xAI بتدريب Grok باستخدام نماذج OpenAI!