في عالم الذكاء الاصطناعي المتسارع، أصبحت نماذج اللغات الضخمة (Large Language Models) مثل GPT-5 وGemini 3 تُعَدّ حجر الزاوية في تحقيق التقدم في مجالات التفكير الآلي وتوليد الأكواد. ورغم أن التقييمات الحالية تركز على الدقة وجودة المخرجات، إلا أنها تتجاهل بُعدًا حاسمًا وهو كفاءة استخدام الرموز.

كفاءة الرموز متغيرة بدرجة كبيرة في الممارسة العملية؛ فالنماذج التي تحل نفس المشكلة بدقة مشابهة يمكن أن تُظهر اختلافًا يصل إلى 5 أضعاف في طول الرموز المستخدمة. هذا التباين يكشف عن وجود فائض كبير، مما يستدعي الحاجة الملحة إلى معيار موحد لقياس الفجوة في كفاءة الرموز.

لذا، نقدم OckBench، المعيار الأول الذي يقيس بشكل مشترك الدقة وكفاءة الرموز عبر جميع مهام التفكير والترميز. تُظهر التقييمات أن كفاءة الرموز لا تزال غير مُحسّنة إلى حد كبير عبر النماذج الحالية، مما يؤدي إلى زيادة التكاليف والوقت المستغرق في الخدمة.

تشير هذه النتائج إلى ضرورة وجود خطة واضحة لتطوير كفاءة التفكير والرموز في هذه النماذج. وفي نهاية المطاف، نؤكد على ضرورة تغيير نمط التقييم: يجب عدم تضخيم الرموز Beyond Necessity. يمكن العثور على معاييرنا المتاحة على وقع OckBench.