في عالم الذكاء الاصطناعي، تبدو العديد من الأسئلة واقعية وبسيطة، لكنها تحمل في طياتها تعقيدات كبيرة تتطلب من النماذج التفكير على مستويين رئيسيين: شمولية المعرفة المتاحة (knowledge width) والتفكير التحليلي القائم على مجموعات البيانات (reasoning depth). في دراسة جديدة، تم تقديم إطار عمل يحمل اسم KnowledgeBerg، وهو معيار يتألف من 4800 سؤال اختيار من متعدد، مستند إلى 1183 نموذجًا تم استنتاجه من عشرة مجالات و17 لغة.

تستند المعرفة المستخدمة في هذه الأسئلة إلى مصادر موثوقة لضمان إمكانية تكرار النتائج، لكن ما هو مثير للقلق هو أن النماذج الأكثر شيوعًا من نماذج اللغة الضخمة (Large Language Models) أظهرت قيودًا واضحة في أدائها. حيث سجلت فقط نتائج تتراوح بين 5.26 إلى 36.88 في قياس شمول المعرفة (F1 score) و16.00 إلى 44.19 في دقة التفكير المبني على المعرفة.

تشير التحليلات التشخيصية إلى ثلاث مراحل كشف من الفشل: أولاً، نقص في المعلومات؛ ثانياً، عدم القدرة على التعرف على المتطلبات؛ وثالثاً، الأخطاء في تنفيذ التفكير المنطقي. هذه الأنماط موجودة بغض النظر عن اللغة أو حجم النموذج. وعلى الرغم من أن تحسين استرجاع المعلومات خلال الاختبار قد توفر بعض التحسينات، تظل الفجوات كبيرة، مما يسلط الضوء على الصعوبات التي تواجهها النماذج الحالية في تنظيم المعرفة الهيكلية وتنفيذ التفكير المركب في مجالات محدودة. يمكن الوصول إلى مجموعة البيانات المستخدمة في هذه الدراسة عبر الرابط: KnowledgeBerg Dataset.

ما رأيكم في هذه النتائج؟ هل تعتقدون أن النماذج الحالية يمكن أن تتجاوز هذه التحديات؟ شاركونا تجاربكم وآرائكم في التعليقات.