منذ فترة طويلة، كان يتم التركيز على تكاليف الرموز في تقييم أداء الوكلاء الذكيين في المهام العلمية، متجاهلين سمات مهمة مثل تكاليف زمن المحاكاة والموارد التجريبية. وقد أدى ذلك إلى عدم جدوى العديد من المقاييس مثل pass@k ضمن قيود الميزانية الواقعية.
SimulCost؟">ما هو SimulCost؟
"SimulCost" هو أول معيار يستهدف التعديل الحساس للتكاليف في محاكاة الفيزياء. يقارن بين تكاليف ضبط المعلمات باستخدام نماذج الذكاء الاصطناعي ومنهج المسح التقليدي من حيث الدقة وتكاليف الحوسبة. عبر مجموعة كبيرة من المهام تصل إلى 4,878 مهمة، تشمل 2,947 مهمة بخطوة واحدة و1,931 مهمة متعددة الجولات عبر 13 موديلاً لمحاكاة الفيزياء.
تم تعريف تكلفة كل نموذج بدقة بشكل تحليلي ومستقل عن المنصة، مما جعل هذه الأداة ذات فائدة واسعة. وتبين نتائج الأبحاث أن نماذج الذكاء الاصطناعي تحققت من نسب نجاح تتراوح بين 46-65% في الوضع الأحادي الجولة، بينما انخفضت إلى 35-55% تحت متطلبات الدقة العالية، مما يجعل التقديرات الأولية غير موثوقة في معظم الحالات.
ومع تطبيق الأسلوب متعدد الجولات، تحسنت النسب لتصل إلى 72-81%، ولكنها كانت أبطأ بنحو 1.5-2.5 مرة مقارنةً بالأساليب التقليدية. كما تم بحث العلاقات بين مجموعات المعلمات لتقييم إمكانية نقل المعرفة وتأثير أمثلة السياق وجهود التفكير، مما يوفر تأثيرات عملية على التنفيذ والتعديل.
تأتي هذه الأداة كمصدر مفتوح، وهو ما يسهل البحث في تحسين تصميمات الوكالات الحساسة للتكاليف وتحقيق المزيد من التطورات في بيئات المحاكاة الجديدة. الشيفرة والبيانات متاحة على GitHub.
هل أنتم مستعدون لاستكشاف الأبعاد الجديدة لمحاكاة الفيزياء باستخدام الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.
