في عالم الذكاء الاصطناعي، يبقى تقييم نماذج اللغات الضخمة (Large Language Models) في السياقات العلمية من أكبر التحديات. وقد انطلقت مشاريع عديدة في هذا المجال لكنها واجهت عقبات تتعلق بالتكاليف العالية لبيانات التقييم المعتمدة على تقييم البشر، ونقص الحقائق الآلية في هذه التقييمات. هنا يأتي دور SciR، المعيار الجديد الذي يتيح تقييمًا موحدًا للأداء في الاستدلال العلمي.

تجمع SciR بين أساليب التفكير المتنوعة مع تقديم عرض علمي قابل للتحكم، مؤسس على ثلاثة مشكلات علمية بارزة. يتم توليد المهام من كائنات رسمية مثل شجرة الاستنتاج (deduction tree) وقاعدة الاستقراء (inductive rule hypothesis) والرسم السببي (causal graph)، مما يضمن الحصول على إجابات قابلة للتحقق.

ما يميز SciR هو إمكانية التحكم في محورين من الصعوبة: الأول يتعلق بصعوبة استخراج المعلومات الرئيسية اللازمة للاستدلال، والثاني بصعوبة الاستدلال نفسه. من خلال اختبار ست نماذج مختلفة، أظهرت النتائج أن هذه المحاور تؤثر سلبًا على أداء كل نموذج، حيث تتراكم تأثيرات هذه المحاور لتعقد الأمور أكثر.

علاوة على ذلك، أثبتت النتائج أن استخدام أساليب الاستدلال مثل deepseek-r1 يتفوق في الغالب على النماذج غير القائمة على الاستدلال على محور الاستدلال، مما يبرز أهمية تطوير نماذج قادرة على التفكير العلمي المعقد.

باختصار، يعد SciR أول معيار لتقييم التفكير العلمي متعدد الأساليب يتضمن تحكمًا برامتيًا في صعوبة كل من استخراج المعلومات والاستدلال، مما يمهد الطريق لمستقبل مشرق في مجال التفكير الآلي القائم على الذكاء الاصطناعي.