مع تزايد استخدام نماذج اللغات الضخمة (Large Language Models) في مجموعة متنوعة من المهام، أصبح من الضروري تقييم أدائها في الأنظمة الاقتصادية المعقدة. في الماضي، كانت التقييمات تركز عادةً على وكيل واحد يتفاعل مع بيئة سلبية. لكن الواقع الاقتصادي يتسم بالتعقيد والتنوع، حيث تتطلب الأنظمة الاقتصادية الحديثة تفاعل وتفاوض بين عدة وكلاء تعمل بشكل مستقل لتحقيق أهدافها.
نقدم لكم كافيبينش (CoffeeBench)، معايير جديدة تهدف إلى تقييم أداء وكلاء الذكاء الاصطناعي في اقتصاد متعدد الوكلاء. يتكون كافيبينش من تجربة محاكاة تمتد على مدار 90 يومًا، حيث يعمل فيها اثنين من المزارعين، واثنين من المحمصين، واثنين من تجار التجزئة بشكل مستقل، مع هدف تحقيق أعلى دخل صافٍ ممكن من خلال التواصل والتعامل، بالإضافة إلى إدارة السيولة والمخزون والأسعار.
تمت تجربة نماذج مختلفة من النماذج المفتوحة والمخصصة للوزن، وقد أظهرت جميعها أداءً متفوقًا مقارنةً مع نموذج السلبي الذي لا يتخذ أي إجراءات، حيث تمكن معظمها من تحقيق دخل صافٍ إيجابي. تكشف التحليلات السلوكية للوكلاء عن اختلافات كبيرة في تفاعلاتهم الاقتصادية الطويلة: النماذج الأكثر أداءً كانت تتواصل بشكل أكثر فاعلية مع الشركات الأخرى، بينما أظهرت نموذج Claude Haiku 4.5 حالة كسولة، حيث اختار عدم التصرف رغم إنتاجه لتقييمات وخطط متماسكة.
ننشر أيضًا شيفرتنا ومسارات الوكلاء لدعم الأبحاث المستقبلية في هذا المجال المثير. ما رأيكم في هذا التطور الثوري في تقييم وكالات الذكاء الاصطناعي؟ شاركونا في التعليقات.
كافيبينش: منصة جديدة لتقييم وكيل الذكاء الاصطناعي في اقتصادات متعددة الوكلاء!
تمتلك وكالات الذكاء الاصطناعي القدرة على تنفيذ مهام طويلة الأجل، مما يسهل تقييم أدائها في أنظمة اقتصادية متعددة. يقدم مشروع كافيبينش طريقة مبتكرة لتقييم وكيل الذكاء الاصطناعي في بيئات معقدة ومتنوعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
