تُعتبر السلاسل الزمنية (Time Series) جزءًا لا يتجزأ من العديد من السيناريوهات الواقعية، حيث تلعب دورًا حيويًا في تطبيقات متنوعة تتراوح من إدارة الطاقة إلى التحكم في المرور. لذا، فإن القدرة على استنتاج المعلومات من هذه السلاسل الزمنية تعد مهارة أساسية للنماذج العامة لحل المشكلات المعقدة. ومع ذلك، فإن المعايير الحالية التي تقيس أداء هذه النماذج غالبًا ما تتجاهل هذا الجانب الحيوي.

لملء هذا الفراغ، تم إطلاق TSRBench، وهو معيار شامل متعدد المهام مصمم لاختبار القدرة الكاملة على استنتاج المعلومات من السلاسل الزمنية. يتضمن TSRBench مجموعة متنوعة من 4125 مشكلة موزعة على 14 مجالًا، وتقسم إلى أربعة أبعاد رئيسية: الإدراك (Perception)، الاستدلال (Reasoning)، التنبؤ (Prediction)، وصنع القرار (Decision-Making). كما يُمكّن TSRBench من تقييم 15 مهمة من هذه الأبعاد الأربعة، التي تقيم المهارات الأساسية في الاستدلال مثل الاستدلال العددي (Numerical Reasoning).

أظهرت التجارب الواسعة التي أُجريت أن هناك 30 نموذجًا رائدًا، بما في ذلك نماذج اللغات الضخمة (Large Language Models) والنماذج المرئية (Visual Language Models)، كانت قيد التقييم ضمن TSRBench. وكشفت النتائج عن أن:
1. القوانين الخاصة بالتوسيع (Scaling Laws) تنطبق على الإدراك والاستدلال، لكنها تنكسر عند التنبؤ.
2. قوة الاستدلال لا تضمن توقعات دقيقة تستند إلى السياق، مما يُظهر عدم الارتباط بين الفهم الدلالي والتنبؤ العددي.
3. على الرغم من التوأمة التكميلية للأشكال النصية والمرئية للسلاسل الزمنية كمدخلات، إلا أن النماذج متعددة الوسائط الحالية لا تفشل في دمجها بشكل فعال لتحقيق تحسينات متبادلة في الأداء.

يُعد TSRBench منصة تقييم موحدة، تسلط الضوء على التحديات الحالية وتوفر رؤى قيمة لتطوير النماذج العامة. يمكنكم الوصول إلى الشيفرة البرمجية ومجموعة البيانات عبر هذا [الرابط](https://tsrbench.github.io/).