مع تقدم الذكاء الاصطناعي، أصبح تحسين الأنظمة التوليدية مسارًا واعدًا نحو إنشاء وكلاء ذاتيين قادرين على التعلم والتحسين. تستند هذه الأساليب إلى نماذج اللغات الضخمة (Large Language Models) التي تسهم في تحسين العناصر مثل الكود أو سير العمل أو حتى التوجيهات، وذلك من خلال ملاحظات التنفيذ. لكن على الرغم من الفوائد المحتملة، تظل هذه الأنظمة عرضة للتحديات، حيث أظهرت الدراسات أن 9% فقط من الوكلاء المدرَسين يستخدمون أي تحسين تلقائي.

تعود هشاشة هذه الأنظمة إلى الخيارات التصميمية "المخفية" التي يجب على المهندسين اتخاذها لإنشاء حلقة التعلم. تشمل هذه الخيارات: ما الذي يمكن للمُحسّن تعديله؟ وما هو الدليل "المناسب" للتعلم الذي ينبغي تقديمه في كل تحديث؟

من خلال الأبحاث الجديدة، تم التحقيق في ثلاثة عوامل رئيسية تؤثر على التطبيقات المختلفة: المادة الأساسية، أفق الائتمان لتتبع التنفيذ، وتجميع التجارب في أدلة التعلم. أكدت الدراسات الحالة في MLAgentBench وAtari وBigBench Extra Hard أن هذه القرارات التصميمية هي التي تحدد نجاح تحسين الأنظمة التوليدية.

تبيّن أن المواد الابتدائية المختلفة تحدد الحلول الممكنة المتاحة، وأن تتبعات التنفيذ المختصرة ما زالت قادرة على تحسين وكلاء Atari. كما أن حجم المجموعات الكبيرة لا يحسن باستمرار التعميق العام في BBEH. في الختام، يشكل عدم وجود طريقة بسيطة وموحدة لإعداد حلقات التعلم عبر المجالات حاجزًا كبيرًا أمام التطبيق والإنتاج، ولذلك نقدم إرشادات عملية لمساعدتك على اتخاذ هذه الخيارات.