في عالم الذكاء الاصطناعي، أصبحت الوكالات (Agents) قادرة على إتمام مهام تجارية طويلة الأمد ذات قيمة كبيرة. ومع ذلك، لا تزال بيئات التدريب والتقييم في الأعمال التجارية تواجه تحديات في تحقيق توازن دقيق بين الواقعية وقابلية التحقق والتوسع. من بين أبرز هذه التحديات، يبرز مفهوم "تراجع العناصر" (Artifact Drift)، حيث تنتج عمليات إنشاء التعليمات والبيئات والتقييمات عن عمليات مترابطة بشكل غير محكم، مما يؤدي إلى عدم توافق في متطلبات المهام وإنتاج بيئات قد تكون غير قابلة للحل، أو قابلة للتلاعب في المكافآت، أو غير متسقة.

لتجاوز هذه العقبات، تم تقديم أداة جديدة تعرف باسم "Anchor"، وهي نظام لإنشاء المهام يعمل على تحويل مواصفات خبراء المجال حول سير العمل التجارية إلى برامج تحسين تعتمد على القيود. من خلال استخدام مواصفة برمجية واحدة، يمكن للنظام إنتاج تعليمات بلغة طبيعية، وإعدادات بيئية، وحل معتمد من قبل العوامل، ومحقق يقوم على الحالة، مما يعزز من دقة وموثوقية النماذج المطورة.

تتيح "Anchor" تغيير المعلمات لإنتاج مهام جديدة بصعوبة مضبوطة وحلول مثالية معروفة، مما ينتج بيئات غير مرتبطة بمكافآت تعتمد فقط على صحة الأرقام النهائية للأعمال التجارية. تم تطبيق "Anchor" لإنتاج "ERP-Bench"، وهو معيار يتضمن 300 مهمة طويلة الأمد تغطي سير العمل في الشراء والتصنيع داخل نظام تخطيط موارد المؤسسات (ERP).

أظهرت النتائج أن معلمات التوليد تتنبأ بالصعوبة المحققة، حيث تمّ تلبية القيود الصريحة للمهام من قبل نماذج حديثة في 26.1% من التجارب، لكن تم الوصول إلى حل مثالي بالكامل في 17.4% منها فقط. يعكس هذا البحث كيف يمكن أن توفر "Anchor" و"ERP-Bench" وصفة ملموسة لبناء بيئات تقييم قابلة للمراجعة للعمليات التجارية القيمة اقتصادياً. يمكنكم زيارة [erpbench.ai] للتعرف على مولد المهام ومجموعة بيانات "ERP-Bench" والتفاعل مع هذا الابتكار الجديد.