قدمت النماذج اللغوية المالية التقليدية تقييمات تعتمد غالباً على آراء مراقبين خارجيين، مما يركز على كيفية تصور اللغة بدلاً من التزامات المتحدثين في السوق. هنا يظهر دور StakeBench، الإطار الثوري الجديد الذي يقيم فهم اللغة بناءً على الالتزام الفعلي بالأسواق.

يتيح StakeBench ربط 560,876 تعليقًا من 2,261 سوقًا تم حلها مع سجلات موثوقة للاتجاهات، والأفعال، والاحتمالات السوقية عبر منصتي Polymarket وManifold. تبنى هذا الإطار منهجية جديدة تعتمد على سلوك السوق القابل للتن observable، حيث تحل إجراءات التداول بعد التعليق وبيانات احتمالات السوق محل العلامات البشرية.

تشمل المهام التشخيصية الأربعة اختبار ما إذا كانت النماذج تكتشف الالتزام بالسوق، وتحدد الجانب المُعلن، وتتنبأ بالإجراءات المستقبلية، وتنفذ توقعات الاحتمالات الجماعية. كما تقدم ثلاث مقاييس متعلقة بالالتزام تحليلًا يركز على التفضيلات المُعلنة بدلاً من المشاعر المُتصورة.

تظهر الأبحاث عبر 15 نموذجٍ لغويٍّ ضخمٍ (LLMs) و18 موضوعًا وإعدادًا مختلفًا أن النماذج قد استعادة إشارات الجانب المُعلن، حيث تتراوح دقة النماذج بين 0.506 إلى 0.599، لكن يُظهر البعض فشلًا هيكليًا في المهام اللاحقة.

علاوة على ذلك، قد تنهار عشرة من النماذج الخمسة عشر إلى تصنيفين من إجراء العمل في توقع الإجراءات المستقبلية، حيث لا يُظهر أي نموذج تحسنًا ثابتًا مقارنةً بالخط الأساسي للاحتمالات. حتى أن زيادة حجم النموذج لا تتعكس على الأداء، ولا تُحسّن التعديلات المرتبطة بالمالية من تحديد الجانب المُعلن، كما أن حوافز المنصات تلعب دورًا كبيرًا في تشكيل النتائج العليا.

يتوفر StakeBench مع كود التقييم ومجموعة البيانات تحت ترخيص CC-BY 4.0، مما يتيح للباحثين استكشاف هذا الإطار وتطبيقه في مجالات متعددة.