في عالم الذكاء الاصطناعي، يعد التفكير المكاني والزماني أحد المجالات الحيوية التي تتطلب دقة وعمقًا في الفهم. لذلك، أعلن الباحثون مؤخرًا عن إطلاق معيار QSTRBench، وهو معيار شامل يهدف إلى تقييم قدرة نماذج اللغة الكبيرة (Large Language Models) على معالجة الأسئلة المعقدة المتعلقة بالتفكير المكاني والزماني.

يتضمن المعيار أسئلة تتعلق بالتفكير التراكمي باستخدام جداول التركيب (Composition Tables) والعلاقات المتبادلة (Converse Relations) والمجاورات المفاهيمية (Conceptual Neighbourhoods) ضمن عدد من حسابات QSTR. يركز المعيار على عدة نماذج رياضية مثل حساب النقاط (Point Algebra)، وحساب فترات ألين (Allen's Interval Algebra)، وعدد من حسابات الاتصال الإقليمي (RCC) مثل RCC-5 وRCC-8 وRCC-22.

جديد هذا المعيار هو تقديم منطقة الجوار المفاهيمي RCC-22 لأول مرة، مما يعكس تطورًا ملحوظًا في مجال التفكر المكاني. كما يتيح المعيار للمستخدمين تقديم الأسئلة بطرق مختلفة، مما يضيف طبقات جديدة من التحدي والتحليل.

على الرغم من أن جميع النماذج التي تم اختبارها أثبتت أداءً أفضل من التخمين، إلا أنها لا تزال تعاني من القدرة على الإجابة بدقة عن جميع الأسئلة. الأداء يختلف بشكل ملحوظ حسب نوع الحساب؛ حيث يعتبر حساب النقاط (PA) الأسهل بينما يعتبر RCC-22 الأكثر تعقيدًا.

جنبًا إلى جنب مع إطلاق المعيار، تم نشر النتائج تحت ترخيص مفتوح، مما يشجع المجتمع البحثي على مزيد من التحليل والتقييم لاستنتاجات التفكير المكاني والزماني في نماذج اللغة الكبيرة. هل تعتقد أن هذا المعيار سيساهم في تحسين قدرات الذكاء الاصطناعي؟ شاركنا رأيك بالأسفل!