تتطور نماذج اللغات الضخمة (LLMs) بشكل متسارع، ومع تزايد اعتمادها على استراتيجيات مثل التأنّي، البحث، والتصحيح الذاتي، بدأت الحاجة إلى تقييم دقتها بالاعتماد على مقياس دقيق يتجاوز العلامة المفردة. فمع مرور الوقت، يتضح أن تلك الرموز التي تُستخدم في إنتاج النتائج ليست مجرد تعبير عن التوفيق، بل تعكس عمق التفكير والقدرة على التعافي من الأمثلة المعقدة.
لذا، نقدم هنا بروتوكول تقييم اختياري جديد يساعد على تفكيك كفاءة استخدام الرموز من خلال ثلاث ملاحظات أساسية، حتى مع وجود نماذج مغلقة. وتشمل هذه الملاحظات: معدل الإنجاز، دقة الشروط بناءً على الإنجاز، والطول الناتج. وإذا كانت بيانات عبء العمل متاحة على مستوى المثال، يمكننا أيضًا تعديل الطول الناتج وفقًا للمهام المعلنة، مما يساعد في فصل الازدحام الكلامي عن مقاييس الأداء المرتبطة بالعبء.
علاوة على ذلك، قمنا بتقييم 14 نموذجًا مفتوح الوزن على عدة معايير مثل CogniLoad وGSM8K وProofWriter وZebraLogic. وأظهر تحليل إضافي لنماذج أخرى كيفية تأثير طول المهام، صعوبتها، وكثافة المشتتات على كفاءة التفكير.
تظل الترتيبات الخاصة بالكفاءة والازدحام متسقة عبر جميع المعايير، مما يجعلها أكثر صلابة مقارنةً بالترتيبات القائمة على الدقة. ولكنه من المهم أيضًا ملاحظة أن عمليات الفشل تتميز بأنماط محددة: مثل الانحصار المنطقي، الانحصار السياقي، وزيادة الإطناب، جميعها تبدو متشابهة عند تقييمها بناءً على دقة كل رمز.
في ختام دراستنا، نعتزم إصدار أداة تقييم ونموذج للإبلاغ تبين لماذا يعتبر نموذج اللغة الضخم غير كفء في التفكير. هذه الخطوات تهدف إلى إعطاء باحثينا فهمًا أعمق لكيفية تحسين هذه النماذج لمستقبل أفضل.
تفكيك كفاءة التفكير في نماذج لغوية ضخمة: ما وراء دقة النتائج!
تجاوزت نماذج اللغات الضخمة (LLMs) مفهوم الدقة، حيث أصبحت تحتاج إلى مقاييس أكثر دقة لتقييم كفاءتها في التفكير. في هذا المقال، نقدم بروتوكول تقييم جديد يكشف عن فعالية الرموز المستخدمة في التفكير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←# ذكاء اصطناعي# نماذج لغوية# تقييم أداء# أبحاث# كفاءة التفكير# نموذج لغوي# تقييم# تفكير في الذكاء الاصطناعي
جاري تحميل التفاعلات...
