في عالم الذكاء الاصطناعي، تقاس قدرة الوكالات عادةً من خلال مؤشرات ثابتة لا تعكس بالضرورة كيفية اعتمادها أو صيانتها أو تجربتها بعد نشرها. لذلك، أُطلق إطار التقييم الجديد AgentPulse، الذي يمكّن من تقييم 50 وكالة ذكاء اصطناعي عبر 10 فئات عمل مختلفة بناءً على أربعة عوامل رئيسية: الأداء القياسي (Benchmark Performance)، إشارات الاعتماد (Adoption Signals)، مشاعر المجتمع (Community Sentiment)، وصحة النظام البيئي (Ecosystem Health).

يعتمد هذا الإطار على 18 إشارة حقيقية يتم جمعها من منصات متعددة، بما في ذلك GitHub، وسجلات الحزم، وأسواق IDE، والمنصات الاجتماعية، ولوحات الشهادات القياسية. وتظهر التحليلات الثلاثة التي تمت على الإطار أن هذه العوامل الأربعة تقدم معلومات مكملة تشكل رؤى جديدة حول حالة وكالات الذكاء الاصطناعي.

قدّم الإطار تقديرات متوافقة مع بيانات اعتماد وكالات أخرى، حيث أُثبت أن مجموعة الأداء القياسي والمشاعر يمكنها التنبؤ بإشارات الاعتماد الخارجية مثل عدد النجوم على GitHub وحجم الأسئلة على Stack Overflow.

وتمكن AgentPulse من استخراج إشارات مفقودة من المؤشرات القياسية، مما يجعله منهجية للتقييم، وليس مجرد تصنيف تقليدي. تتيح هذه المنهجية للباحثين والمطورين فهم أداء الوكالات في بيئات العمل الحقيقية بشكل أكثر دقة.