في عالم الذكاء الاصطناعي، يتطلب الأمر من الوكلاء المستقلين القدرة على الاندماج الناجح في المجتمع البشري، وهذا يشمل إتقان الأنشطة الإنتاجية والتفاعل الاجتماعي. ومع ذلك، فإن معظم المعايير الحالية نادراً ما تقيم هذين الجانبين بشكل متزامن. لذلك، يأتي StarDojo كحل مبتكر، وهو معيار جديد يوفر منصة شاملة لتقييم وكلاء الذكاء الاصطناعي في محاكاة إنتاجية مثل لعبة Stardew Valley.

تم تصميم StarDojo لتقييم أداء الوكلاء الذكاء الاصطناعي من خلال سلسلة متنوعة من المهام التي تتضمن أنشطة حيوية مثل الزراعة والحرف اليدوية، إلى جانب التفاعل الاجتماعي لبناء علاقات داخل مجتمع نابض بالحياة. يضم StarDojo 1000 مهمة مختارة بعناية عبر خمسة مجالات رئيسية: الزراعة، الحرف اليدوية، الاستكشاف، القتال، والتفاعلات الاجتماعية. كما يوفر أيضاً مجموعة مختصرة مكونة من 100 مهمة تمثيلية لتسهيل تقييم النماذج.

تتميز واجهة StarDojo بأنها سهلة الاستخدام، حيث تلغي الحاجة إلى التحكم باستخدام لوحة المفاتيح والفأرة، وهي تدعم جميع أنظمة التشغيل الرئيسية، مما يسهل تنفيذ حالات متعددة من البيئة في الوقت نفسه. يجعل هذا التصميم StarDojo منصة مثالية لتقييم أفضل الوكلاء القائمين على نماذج اللغة متعددة الأوجه (Multimodal Large Language Models - MLLMs).

ومع ذلك، تظهر تقييمات شاملة على نماذج MLLMs الحالية بأداء متواضع. حيث أظهرت أفضل النماذج، مثل GPT-4.1، أنها تحقق فقط معدل نجاح يبلغ 12.7%، بسبب التحديات التي تواجهها في الفهم البصري، والتفكير متعدد الوسائط، والتلاعب على المستوى المنخفض.

يهدف StarDojo، كبيئة معيارية سهلة الاستخدام، إلى تعزيز البحوث المستقبلية نحو تطوير وكلاء ذكيين قادرين على التعامل مع التحديات المعقدة في البيئات الإنتاجية.