تعد جودة بيانات السلاسل الزمنية (Time Series Data) واحدة من أهم العناصر التي يتوجب على الباحثين والعلماء التركيز عليها، ولكنها تمثل تحديًا كبيرًا نظرًا لطبيعتها المعقدة. في الآونة الأخيرة، ظهرت نماذج اللغات الضخمة (Large Language Models) كنموذج واعد لتقييم جودة السلاسل الزمنية من خلال المقارنة الثنائية وتقييم الجودة حسب الأبعاد.

تحديات التقييم الحالية تعتمد على أبعاد جودة محددة مسبقًا يدويًا وتفكير نصي بحت، مما يترك تساؤلات حول ما إذا كانت هذه النماذج قادرة على اكتشاف الأبعاد الحقيقية ذات الصلة أو إجراء مقارنات كمية ملائمة. لذلك، تم تطوير TSQBench، وهو معيار مخصص لتقييم نماذج اللغات الضخمة وفق قدرات متقدمة، شاملة: (i) فهم وتحديد الأبعاد المتعلقة بجودة البيانات، و (ii) إجراء المقارنات النوعية حسب أبعاد محددة.

الكشف عن أن النماذج الحالية تعاني من تحديات في كلا الجانبين، دفع الباحثين إلى تقديم TSQAgent، إطار عمل جديد يعتمد على التفكير العدمي. يتضمن هذا الإطار ثلاثة أدوار تعاونية: المُستقبِل (Perceiver) لتحديد الأبعاد بشكل مركز، و المراقب (Inspector) لإجراء التحليل الكمي حسب الأبعاد، و القرّار (Adjudicator) الذي يجمع وينقي الحكم النهائي.

عبر استراتيجية تفكير عدمي جديدة، تبرز القدرة على تحديد وترتيب الأبعاد الأكثر صلة واستعمال أدوات تحليل خارجية لتوفير مقارنات كمية دقيقة. التجارب على المعيار الجديد وعلى أحد عشر مجموعة بيانات حقيقية أظهرت أن إطار TSQAgent محسن بشكل كبير قدرات نماذج اللغات الضخمة في فهم الجودة وإجراء مقارنات كمية، مما يؤدي إلى تحسين اختيار البيانات وزيادة الكفاءة في الأداء الكلي.