في عالم التكولوجيا الحديثة، أدخل باحثون معياراً جديداً يُعرف باسم ISOSCI، وهو معيار يهدف إلى اختبار قدرة نماذج الذكاء الاصطناعي (LLMs) على التفكير المنطقي مقابل استرجاع المعرفة المتخصصة. يُقدم ISOSCI أزواجًا من المشكلات العلمية المتشابهة من حيث التركيب المنطقي، ولكنها تتطلب معرفة متخصصة مختلفة، مما يتيح تحليلاً دقيقًا لكيفية أداء النماذج في سياقات مختلفة.

تشير النتائج التي تم التوصل إليها عبر خمسة أزواج نموذجية من أربعة عائلات نماذج إلى أن 91.3% من تحسينات القدرة على التفكير تعتمد على المعرفة بدلاً من الشكل الهيكلي العام. وهذا يتناقض مع الاعتقاد السائد بأن التفكير المتسلسل يساعد في تحسين الحلول العلمية التي تتطلب إجراءات قصيرة الأجل.

الجهاز الخاص بالنماذج العادية (o3-mini) أظهر قوة في أداء مهمته على قاعدة بيانات GPQA Diamond، حيث حقق زيادة بنسبة 19.2 نقطة مئوية. ومع ذلك، عند تطبيقه على معيار ISOSCI، انخفض أداؤه بنسبة 24.7 نقطة مئوية، مما يدل على أن معيار الاختبار يؤثر بشكل كبير على الاستنتاجات حول فعالية التفكير.

بفضل هذا المعيار الجديد، يمكن للمطورين والباحثين الآن تقييم نماذجهم بطريقة أكثر عمقًا وفهمًا للقيود التي تواجهها.

للمزيد حول ISOSCI، يمكنكم زيارة الرابط: ISOSCI على Hugging Face. ما هي آرائكم حول هذا المعيار الجديد؟ شاركونا في التعليقات!