في عالم الذكاء الاصطناعي (AI)، يعد تطوير وكلاء يعتمدون على نماذج اللغات الضخمة (Large Language Models) القابلة للتطور الذاتي خطوة ثورية، وهذا ما تسعى SEAGym إلى تحقيقه. تعتمد هذه البيئة على تحسين الوكلاء من خلال تغيير "حزام الوكيل"، وهو الطبقة المنظمة التي تحيط بالنموذج الأساسي، بما في ذلك التعليمات، الذاكرة، الأدوات، البرامج الوسيطة، حالة التشغيل، ودورة التفاعل بين النموذج والأدوات.
وغالباً ما تقلل التقييمات الحالية من هذه العملية إلى نقاط أداء معزولة أو منحنى تسلسلي وحيد، مما يحجب تأثير التحديثات على الأداء الفعلي. هنا تدخل SEAGym كحل مبتكر، حيث توفر بيئة قوية لقياس تحديثات حزام الوكيل عبر بيانات التدريب، التحقق، التجريب، والتكاليف.
تقوم SEAGym بتحويل المراجع المتوافقة مع Harbor إلى مصادر ديناميكية للأسئلة الخاصة بالتطور الذاتي، مع تمكين دفعات التدريب، والتحقق من التحديثات المجمدة، وعرض الرؤى الداخلية والخارجية. من خلال تطبيق SEAGym على Terminal-Bench 2.0 وHLE، قمنا بمقارنة أداء نماذج مختلفة مثل ACE وTF-GRPO وAHE تحت بروتوكول مشترك.
تُظهر النتائج أن هذه الآراء التقييمية تقدم إشارات تكاملية حول عملية التطور: على الرغم من أن التحديثات المتكررة قد لا تحسن الأداء المحجوز، إلا أن لقطات الحالة المفيدة قد تتراجع لاحقًا، ويمكن أن يؤثر تنوع المصادر ونموذج الخلفية على موثوقية الحزام.
لذا، فإن SEAGym ليست مجرد أداة للتقييم، بل خطوة هامة نحو فهم كيفية تطوير وكلاء الذكاء الاصطناعي بطريقة فعالة وموثوقة.
SEAGym: بيئة تقييم مبتكرة لوكلاء LLM القابلين للتطور الذاتي
تقدم SEAGym طريقة جديدة لتقييم وكلاء الذكاء الاصطناعي القابلين للتطور الذاتي، مما يساهم في تحسين عملية التعلم والتقييم. تتيح هذه البيئة قياس تأثير التحديثات بشكل دقيق على أداء الوكلاء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
