أصبح التخطيط لفترات طويلة عنصراً أساسياً يُعتمد عليه بشكل متزايد في نظام الذكاء الاصطناعي، خاصةً مع ظهور نماذج اللغات الكبيرة (LLMs). ومع ذلك، كان هناك نقص في الإطارات التقييمية الفعالة التي تأخذ في اعتبارها الديناميات الاقتصادية المستمرة. هنا تأتي EcoGym، كأداة جديدة مبتكرة تهدف إلى تحسين هذا الجانب.
EcoGym هو معيار عام يركز على تقييم اتخاذ القرارات في بيئات اقتصادية تفاعلية. يتكون هذا النظام من ثلاثة بيئات متنوعة:
1. **Vending:** تم تعديلها من منصة Vending-Bench، وهي متاحة الآن بشكل كامل كمصدر مفتوح.
2. **Freelance:** بيئة جديدة تهدف لدراسة استراتيجيات العمل الحر.
3. **Operation:** بيئة جديدة تركز على التنفيذ الإداري.
تعمل EcoGym من خلال عملية اتخاذ قرارات موحدة مع واجهات معيارية، وأفعال مُحددة الميزانية تمتد على أفق غير محدود فعلياً. يُمكن إجراء تقييمات تصل إلى 1000 خطوة، ما يعكس ديناميات السوق الحقيقية على مدى فترة تصل إلى 365 يوماً.
تركز قياسات EcoGym على نتائج ذات صلة بالعمل، مثل صافي الثروة والدخل، بهدف تحقيق الاستدامة الاستراتيجية تحت مستويات جزئية من المراقبة وحالات عدم اليقين.
أظهرت التجارب التي أجريت على أحد عشر نموذجاً من نماذج اللغات الكبيرة توتراً منهجياً: لم يتمكن أي نموذج من التفوق على الآخرين في جميع السيناريوهات الثلاثة. بل وُجد أن النماذج تعاني من نقص كبير في الكفاءة، سواء في استراتيجياتها العامة أو في تنفيذ الأفعال بكفاءة.
تقدم EcoGym كمنصة مفتوحة وقابلة للتوسيع، مما يساهم في تقييم وكيل الذكاء الاصطناعي على المدى الطويل ودراسة التبادلات بين القابلية للتحكم والفعالية في البيئات الاقتصادية.
EcoGym: ثورة في تقييم نماذج الذكاء الاصطناعي في الاقتصاد التفاعلي!
تسعى EcoGym إلى تقييم نماذج اللغات الكبيرة (LLMs) في سياقات تخطيط طويلة الأجل، مُقدمةً بيئة تقييم جديدة تركز على الاقتصاد التفاعلي. يعمل هذا الإطار على تحسين استراتيجيات التنفيذ وتقليل العجز في الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
