في عالم الذكاء الاصطناعي المُعاصر، تُعتبر نماذج اللغات الضخمة (Large Language Models) من أبرز الابتكارات التي تعيد تشكيل كيفية معالجة المعلومات. ولكن، رغم انتشار استخدامها في تجميع المعرفة، إلا أن قدراتها في الاستدلال المركب ضمن المعرفة العلمية ما زالت غير مُستكشفة بشكل كامل. الأمر الذي دفع الباحثين إلى تطوير أداة جديدة تُدعى XDomainBench.

**XDomainBench** هي معلمة تشخيصية تهدف إلى اختبار الاستدلال العلمي التفاعلي بين عدة تخصصات. فبدلاً من التركيز على سيناريوهات تتسم بالقيود الزمنية الأحادية، تتناول هذه الأداة كيفية تعقيد التفاعلات العلمية في مجالات متعددة.

تحتوي الأداة على 8,598 جلسة تفاعلية تمتد عبر 20 مجالًا و4 فئات من المهام، مع 8 أنماط متدرجة تمثل صعوبة وتنوع المجالات، مما يتيح محاكاة واقعية لنماذج AI4S.

يكشف التقييم واسع النطاق لنماذج اللغات الضخمة عن انهيار منهجي في الاستدلال عندما تزداد التعقيدات، حيث ظهرت الأسباب الرئيسية وراء ذلك في شكلين:
1. زيادة مباشرة في الصعوبة الناتجة عن التركيبة بين المجالات.
2. فشل نفسي يزداد بسبب التفاعلات، مما يؤدي إلى تراكم الأخطاء وانهيارات في الاستدلال.

بفضل XDomainBench، أصبح بإمكان الباحثين ورجال الصناعة استكشاف الحدود التي قد تواجه نماذج الذكاء الاصطناعي، مما يوفر رؤى قيمة لتحسين الأداء في البيئات العلمية المتعددة التخصصات. بادروا بمشاركة آرائكم: كيف ترون تأثير هذه الأداة على مستقبل الذكاء الاصطناعي في العلوم؟