شهد مجتمع أنظمة الحاسوب في الآونة الأخيرة اهتمامًا متزايدًا بتطور الأنظمة المستندة إلى الذكاء الاصطناعي، حيث تقوم الوكلاء الذكائيون بإعادة كتابة الأنظمة بشكل تكراري. وقد أظهرت الإطارات مثل AdaEvolve وEngram تحسينات ملحوظة تتراوح بين 12% إلى 60% مقارنةً بالخوارزميات التي صممها الإنسان.

ومع ذلك، تظل المخاوف قائمة بشأن ما إذا كانت هذه البرامج التي تطورها الذكاء الاصطناعي يمكن أن تكون أدائها أسوأ في حالات العمل غير المرئية وتظهر تراجعات في قابلية التوسع. في ظل سرعة وحجم كودات الذكاء الاصطناعي، نحتاج إلى آليات أوتوماتيكية لاكتشاف هذه العيوب المخفية في برامج الأنظمة المطورة.

لذلك تم تطوير AIChilles، الذي يأخذ كمدخل برنامجًا أساسيًا $P$ وبرنامجًا مطورًا بواسطة الذكاء الاصطناعي $P'$. تقوم AIChilles بالبحث عن أحمال العمل الصحيحة حيث يتراجع $P'$ بالنسبة إلى $P$ من حيث الدقة، زمن التشغيل، استخدام الذاكرة، أو جودة المخرجات. لتناول التنوع في تطبيقات الأنظمة، وأنواع العيوب، والأخطاء المحتملة، تجمع AIChilles بين استخراج معلمات الأحمال المحددة، واستنتاج القيود بالاعتماد على الوكلاء، والأوراكيل التفاضلية، وتغطية تكرار الكود للكشف عن إخفاقات متنوعة.

عبر خمسة تطبيقات نظامية و30 برنامجًا مطورًا، عثرت AIChilles على 49 عيبًا مخفيًا مميزًا. كما نوضح أنه من خلال دمج AIChilles بشكل صريح في دورة تطوير تعتمد على الذكاء الاصطناعي، يمكن التخفيف من عدة عيوب.

تعتبر AIChilles خطوة حاسمة نحو تحسين موثوقية أنظمة الذكاء الاصطناعي الضخمة، وتعكس أهمية الابتكار في مجال تقنية المعلومات.