تتطور [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLMs](/tag/llms)) بشكل متسارع، ومع تزايد اعتمادها على [استراتيجيات](/tag/استراتيجيات) مثل التأنّي، البحث، والتصحيح الذاتي، بدأت الحاجة إلى [تقييم](/tag/تقييم) دقتها بالاعتماد على مقياس دقيق يتجاوز العلامة المفردة. فمع مرور الوقت، يتضح أن تلك الرموز التي تُستخدم في إنتاج النتائج ليست مجرد تعبير عن التوفيق، بل تعكس [عمق التفكير](/tag/عمق-[التفكير](/tag/التفكير)) والقدرة على التعافي من الأمثلة المعقدة.
لذا، نقدم هنا [بروتوكول](/tag/بروتوكول) [تقييم](/tag/تقييم) اختياري [جديد](/tag/جديد) يساعد على تفكيك [كفاءة](/tag/كفاءة) استخدام الرموز من خلال ثلاث ملاحظات أساسية، حتى مع وجود [نماذج](/tag/نماذج) مغلقة. وتشمل هذه الملاحظات: معدل الإنجاز، [دقة](/tag/دقة) الشروط بناءً على الإنجاز، والطول الناتج. وإذا كانت [بيانات](/tag/بيانات) عبء العمل متاحة على مستوى المثال، يمكننا أيضًا [تعديل](/tag/تعديل) الطول الناتج وفقًا للمهام المعلنة، مما يساعد في فصل الازدحام الكلامي عن [مقاييس الأداء](/tag/[مقاييس](/tag/مقاييس)-[الأداء](/tag/الأداء)) المرتبطة بالعبء.
علاوة على ذلك، قمنا بتقييم 14 نموذجًا مفتوح الوزن على عدة [معايير](/tag/معايير) مثل CogniLoad وGSM8K وProofWriter وZebraLogic. وأظهر [تحليل](/tag/تحليل) إضافي لنماذج أخرى كيفية تأثير طول المهام، صعوبتها، وكثافة المشتتات على [كفاءة التفكير](/tag/[كفاءة](/tag/كفاءة)-[التفكير](/tag/التفكير)).
تظل الترتيبات الخاصة بالكفاءة والازدحام متسقة [عبر](/tag/عبر) جميع المعايير، مما يجعلها أكثر صلابة مقارنةً بالترتيبات القائمة على [الدقة](/tag/الدقة). ولكنه من المهم أيضًا ملاحظة أن عمليات الفشل تتميز بأنماط محددة: مثل الانحصار المنطقي، الانحصار السياقي، وزيادة الإطناب، جميعها تبدو متشابهة عند تقييمها بناءً على [دقة](/tag/دقة) كل رمز.
في ختام دراستنا، نعتزم إصدار [أداة](/tag/أداة) [تقييم](/tag/تقييم) ونموذج للإبلاغ تبين لماذا يعتبر [نموذج [اللغة](/tag/اللغة) الضخم](/tag/[نموذج](/tag/نموذج)-[اللغة](/tag/اللغة)-الضخم) غير كفء في [التفكير](/tag/التفكير). هذه الخطوات تهدف إلى إعطاء باحثينا فهمًا أعمق لكيفية [تحسين](/tag/تحسين) هذه [النماذج](/tag/النماذج) لمستقبل أفضل.
تفكيك كفاءة التفكير في نماذج لغوية ضخمة: ما وراء دقة النتائج!
تجاوزت نماذج اللغات الضخمة (LLMs) مفهوم الدقة، حيث أصبحت تحتاج إلى مقاييس أكثر دقة لتقييم كفاءتها في التفكير. في هذا المقال، نقدم بروتوكول تقييم جديد يكشف عن فعالية الرموز المستخدمة في التفكير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←# ذكاء اصطناعي# نماذج لغوية# تقييم أداء# أبحاث# كفاءة التفكير# نموذج لغوي# تقييم# تفكير في الذكاء الاصطناعي
جاري تحميل التفاعلات...
