في عالم الذكاء الاصطناعي المتطور، كانت الحاجة إلى معيار موحد لتقييم وكالات اتخاذ القرار المتسلسل (Sequential Decision-Making Agents) واضحة. لذا، قام الباحثون بتقديم Agentick، الذي يمثل بديهية جديدة للإجابة عن تلك الحاجة.

تعتبر Agentick منصة متميزة تتيح تقييم إدراك الأداء للعديد من الوكالات، التي تشمل الوكالات التعليمية من الصفر (RL) ووكالات النماذج اللغوية الضخمة (LLM) وغيرها. يجمع هذا المعيار الجديد بين 37 مهمة تم توليدها بشكل إجرائي، موزعة على 6 فئات من القدرات و4 مستويات صعوبة و5 أنماط ملاحظة، كل ذلك داخل واجهة متوافقة مع Gymnasium.

تأتي Agentick مزودة بواجهة برمجة التطبيقات (Coding API) وسياسات مرجعية (Oracle Reference Policies) مسبقة البناء لكل مهمة، بالإضافة إلى مجموعات بيانات للتدريب (SFT Datasets) وجهاز مدرب متوافق مع الوكالات. كما تحتوي على لوحة تتبع حية (Live Leaderboard) لتقييم الأداء.

من خلال تقييم تم عبر 27 تكوينًا و90,000 حلقة، أظهرت النتائج أن لا نهج واحد يهيمن على الآخرين. حيث قدم نموذج GPT-5 mini الأداء الأفضل بشكل عام برصيد 0.309، بينما برزت تقنيات (PPO) في تخطيط المهام والمهام متعددة الوكلاء. وتبين أن الإعداد الجديد يعزز أداء LLM بنسبة تصل إلى 10 أضعاف، مما يؤكد الحاجة إلى تحسينات مستمرة في جميع أنماط الوكالات.

أخيرًا، يوفر التصميم المتعدد الأنماط والمتوافق مع القدرات في Agentick البنية التحتية اللازمة لدفع تقدم الوكالات الذاتية العامة، سواء كإطار لتقييم الأداء أو كبيئة تدريب لتقنيات التعلم المعزز بعد تدريب النماذج الأساسية في بيئات متسلسلة حقيقية.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.