في خطوة مبتكرة نحو تعزيز قدرات الذكاء الاصطناعي، أطلق الباحثون مشروع PlanarBench، الذي يسعى لاختبار مدى قدرة نماذج اللغة الكبيرة (Large Language Models - LLMs) على رسم الرسوم البيانية المسطحة. يعتمد الاختبار على تقديم قائمة من الحواف فقط، مما يتطلب من هذه النماذج التفكير Spatial Reasoning ومواجهة تحديات متعلقة بالذاكرة.

تتجلى صعوبة الاختبار في إمكانية تبديل ترتيب الحواف، اتجاهات الحواف، ومسميات العقد، مما يجعل العملية بعيدة عن التذكر البسيط. حيث تم تقييم 91 نموذجًا على 199 رسمًا بيانيًا مسطحًا بسيطًا غير متساوي في الاتصالات، يتضمن من 2 إلى 7 رؤوس.

من المثير للاهتمام أن التحليل أظهر أن عدد الحواف يعتبر المؤشر الرئيسي على صعوبة الرسم البياني (ارتباط قدره $r = -0.85$)، وهذا ما لم يُبلغ عنه في الاختبارات السابقة للرسوم البيانية المرتبطة بنماذج اللغة الكبيرة، والتي كانت تعتمد فقط على عدد العقد كمقياس للصعوبة.

يشير هذا البحث إلى ضرورة إعادة النظر في طريقة تقييم أداء الذكاء الاصطناعي وقدراته على التفكير المكاني، مما يمهد الطريق لمزيد من الابتكارات في هذا المجال الشيق.