تتطور [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLMs](/tag/llms)) بشكل متسارع، ومع تزايد اعتمادها على [استراتيجيات](/tag/استراتيجيات) مثل التأنّي، البحث، والتصحيح الذاتي، بدأت الحاجة إلى [تقييم](/tag/تقييم) دقتها بالاعتماد على مقياس دقيق يتجاوز العلامة المفردة. فمع مرور الوقت، يتضح أن تلك الرموز التي تُستخدم في إنتاج النتائج ليست مجرد تعبير عن التوفيق، بل تعكس [عمق التفكير](/tag/عمق-[التفكير](/tag/التفكير)) والقدرة على التعافي من الأمثلة المعقدة.

لذا، نقدم هنا [بروتوكول](/tag/بروتوكول) [تقييم](/tag/تقييم) اختياري [جديد](/tag/جديد) يساعد على تفكيك [كفاءة](/tag/كفاءة) استخدام الرموز من خلال ثلاث ملاحظات أساسية، حتى مع وجود [نماذج](/tag/نماذج) مغلقة. وتشمل هذه الملاحظات: معدل الإنجاز، [دقة](/tag/دقة) الشروط بناءً على الإنجاز، والطول الناتج. وإذا كانت [بيانات](/tag/بيانات) عبء العمل متاحة على مستوى المثال، يمكننا أيضًا [تعديل](/tag/تعديل) الطول الناتج وفقًا للمهام المعلنة، مما يساعد في فصل الازدحام الكلامي عن [مقاييس الأداء](/tag/[مقاييس](/tag/مقاييس)-[الأداء](/tag/الأداء)) المرتبطة بالعبء.

علاوة على ذلك، قمنا بتقييم 14 نموذجًا مفتوح الوزن على عدة [معايير](/tag/معايير) مثل CogniLoad وGSM8K وProofWriter وZebraLogic. وأظهر [تحليل](/tag/تحليل) إضافي لنماذج أخرى كيفية تأثير طول المهام، صعوبتها، وكثافة المشتتات على [كفاءة التفكير](/tag/[كفاءة](/tag/كفاءة)-[التفكير](/tag/التفكير)).

تظل الترتيبات الخاصة بالكفاءة والازدحام متسقة [عبر](/tag/عبر) جميع المعايير، مما يجعلها أكثر صلابة مقارنةً بالترتيبات القائمة على [الدقة](/tag/الدقة). ولكنه من المهم أيضًا ملاحظة أن عمليات الفشل تتميز بأنماط محددة: مثل الانحصار المنطقي، الانحصار السياقي، وزيادة الإطناب، جميعها تبدو متشابهة عند تقييمها بناءً على [دقة](/tag/دقة) كل رمز.

في ختام دراستنا، نعتزم إصدار [أداة](/tag/أداة) [تقييم](/tag/تقييم) ونموذج للإبلاغ تبين لماذا يعتبر [نموذج [اللغة](/tag/اللغة) الضخم](/tag/[نموذج](/tag/نموذج)-[اللغة](/tag/اللغة)-الضخم) غير كفء في [التفكير](/tag/التفكير). هذه الخطوات تهدف إلى إعطاء باحثينا فهمًا أعمق لكيفية [تحسين](/tag/تحسين) هذه [النماذج](/tag/النماذج) لمستقبل أفضل.