في عالم الذكاء الاصطناعي، تتزايد الحاجة إلى أنظمة قادرة على التكيف مع الأفراد، خاصة في سياقات الدعم الفني لاتخاذ القرارات. ومع ذلك، ما زال هناك نقص في البيانات اللازمة لتقييم هذه الأنظمة. تعتمد المعايير الحالية لفهم سلوك المستخدم غالباً على مستخدمين محاكيين أو سلوكيات مولدة بواسطة نماذج، وهو ما قد يؤدي إلى نتائج مشوشة وغير دقيقة.

هنا تأتي أهمية extsc{BehaviorBench}، المعايير الجديدة التي تقدمها لنا لتقييم نماذج اتخاذ القرار الشخصية دون الاعتماد على المحاكاة فقط. تعتمد extsc{BehaviorBench} على تتبّع السلوكيات الحقيقية للمستخدمين من خلال سجلات السوق العامة وسجلات العملات المشفرة، وتجميعها في مستويين تكلفيين متكاملين:
- **توقع المعتقدات (Belief prediction)**: حيث تتنبأ بالنقطة النهائية والموثوقية التي سيبرزها المستخدم في السوق.
- **توقع التجارة (Trade prediction)**: الذي يتنبأ باتجاه وحجم المعاملات الفردية.

يتضمن هذا المعايير ما يعادل 2,000 محفظة تقييم، تشمل 141,445 حالة توقع لمعتقدات و1,485,972 حالة توقع للتجارة، مع وجود مجموعة دعم منفصلة تتيح تقييمًا قائمًا على الاسترجاع.

عند تقييم نماذج توليدية متقدمة تحت أربعة واجهات تاريخية، تتضح بعض النتائج المثيرة للاهتمام: تحسن توقع المعتقدات بصورة أكثر اتساقًا مقارنة بتوقع التجارة، كما أن تصنيفات النماذج تتغير عبر الطبقات التكلفية والمقاييس. تختلف واجهات التاريخ أيضًا في كشف أنواع مختلفة من مشكلات الفشل.

تقدم extsc{BehaviorBench} منصة فريدة لدراسة ما إذا كانت الطرق الشخصية قادرة على استخدام الأدلة السلوكية الحقيقية بدلاً من الاعتماد على المستخدمين المحاكيين. هل أنت مستعد لاكتشاف إمكانيات الذكاء الاصطناعي في فهم اختياراتنا الحقيقية؟ شاركنا آراءك في التعليقات!