في سعيها لتحسين قدرات نماذج اللغة الكبيرة (Large Language Models - LLMs)، أصدرت مجموعة من الباحثين ChaosBench-Logic v2، معيارًا مبتكرًا يهدف إلى تقييم التفكير المنطقي للنماذج عبر 165 نظامًا ديناميكيًا. يتضمن هذا المعيار 40,886 سؤالًا ويدرس 27 من مُركبات اللوجيك الأولي (First-Order Logic - FOL) و78 حافة بديهية.

تُظهر الدراسات السابقة أن دقة النماذج على معايير التفكير الثنائي كانت تخفي حالات فشل حرجة مثل انهيار الأداء (prior collapse) وعدم الاتساق تحت المعادلة. من خلال استخدام بروتوكول CARE (Calibration- and Adversarial-Robust Evaluation)، استطاع الباحثون تحديد هذه المشكلات بوضوح.

عند تقييم 14 نموذجًا، أظهرت النتائج أن التفكير في انتقالات النظم يبقى قريبًا من العشوائية بمقياس MCC يقدر بـ 0.05 حتى بالنسبة للنماذج المتقدمة. في حين أن الاستنتاج باستخدام مبادئ محددة حقق MCC يصل إلى 0.52، مما يدل على الفجوة الكبيرة في الأداء.

كما أوضحت الدراسة أن النماذج التجارية تحتفظ بمزايا واضحة في مهام الاتساق والتداخل، حيث حققت انحرافًا بمقدار +0.40، بينما كانت النماذج المفتوحة مثل Qwen 2.5-32B تتفوق في تشخيص المؤشرات بمعدل 0.91 مقابل 0.45.

جدير بالذكر أن نماذج معينة أظهرت معدلات MCC سلبية عند التعامل مع أسئلة الانقسام، مما أكد وجود ارتباطات سلبية منظمة عند تحليل المصفوفات.

خلاصة القول، يسلط ChaosBench-Logic v2 الضوء على الحاجة الملحة لتحسين خوارزميات التفكير المنطقي في النماذج المتطورة، مما يفتح المجال أمام مزيد من الأبحاث والتطوير في هذا المجال المتنامي.