في عالم الذكاء الاصطناعي، تُعتبر الوكلاء الذين يعتمدون على نماذج اللغة الآلية (Autonomous Language-Model Agents) محور التطورات الحديثة. بفضل دمج تقنيات التخطيط (Planning) واستخدام الأدوات، أصبحت هذه الوكلاء قادرة على إنجاز مهام معقدة مثل معالجة الوثائق والتصفح وتنفيذ الأكواد. ومع هذا، فإن هذه القدرات تأتي مع تحديات جديدة تتعلق بالفشل التشغيلي، والتي لا يمكن ملاحظتها فقط من خلال دقة الأداء النهائي.

تُقدّم ChromaFlow إطارًا مثيرًا للاهتمام يعزز من التفكير المستقل للوكلاء، حيث يعتمد على التنفيذ المُدار بالتخطيط، واستخدام الأدوات المتخصصة، وتقييم قائم على البيانات (Telemetry). في تحليل أجري على مهام تقييم GAIA 2023 Level-1 تحت قيود تقييم نظيفة، حققت القاعدة الأساسية المجمدة نسبة 54.72% من الإجابات الصحيحة.

ومع ذلك، كشفت إعدادات التهيئة اللاحقة مع تنسيق موسع عن تراجع في الأداء إلى 50.94%، مما يدل على التأثير السلبي لتعقيد العمليات. كما أظهرت تقييمات عشوائية أخرى نتائج متقلبة، حيث حقق الواحدة منها 12/20 والثانية 11/20 من الإجابات الصحيحة.

النتيجة الجوهرية للدراسة هي "إزالة سلبية"، تؤكد أن زيادة التنسيق العدوانية لم تُحسّن من الأداء الكامل بل زادت من الضجيج التشغيلي. وتسلط الدراسة الضوء على أهمية التعامل مع تصعيد المخطط المقيد، الاستخراج الحتمي، المصالحة بين الأدلة، وبوابات التشغيل كمتطلبات أساسية لتقييم موثوق للوكلاء المستقلين.