في خطوة جديدة تبشر بإحداث تغييرات في فهم أداء نماذج اللغة (Language Models)، تم الإعلان عن إطلاق معيار السقف المعقد (Complexity Ceiling Benchmark - CCB). هذا المعيار يقدم تقييماً دقيقاً لكيفية تدهور قدرة هذه النماذج على التفكير المنطقي مع زيادة عدد الخطوات التسلسلية المطلوبة. يتمثل دور CCB في تثبيت المحتوى الدلالي لنموذج ما، وتغيير عمقه N الذي يتراوح بين {5,...,50} ضمن ثلاثة أنظمة معرضة بشكل هيكلي لعمليات تفكير مختلفة: تتبع الحالة المكانية المتجذرة، معالجة المؤشرات الرمزية المجردة، والاستنتاجات العلائقية العابرة.
خلال 6000 تجربة على خمسة من نماذج اللغة المتطورة، لاحظ الباحثون نمطاً ثابتاً يتمثل في تدهور هندسي لكل خطوة من خطوات المنطق، مع وجود حدود قصوى متعددة تفصل بين المجالات. ففي النظامين الأولين، احتفظت أقوى النماذج بدقة ادعائية تتجاوز 0.92 حتى عند العمق N=50. ولكن في النظام الثالث، انهارت جميع النماذج عند N=5، مع وجود أفق النجاح الأفضل عند حوالي 4.7 خطوات، على الرغم من أن دقة النموذج بلغت 0.863.
كما يكشف مقياس على المستوى الدقيق (TFBC) عن أن 14.5% من الإجابات الصحيحة تم الوصول إليها من خلال تفكير غير صحيح. أسفرت محاولات تتبع الحالة القسري عن عدم تحقيق أي تقدم في السقف (McNemar p=1.000). يُظهر أيضاً المتوسط الذي يظهر عنده الانحراف الأول في المنطق (k*) أنه يتنبأ بدقة ضمن المجال بشكل أفضل من عدد المعاملات. يُمثل كل من معيار السقف المعقد (CCB) ونموذج التدهور الهندسي سبيلاً لتقليل ملف التفكير على المدى الطويل لنموذج ما إلى رقم قابل للتفسير لكل مجموعة مهام.
تحدي السقف المعقد: تقييم متعدّد المجالات للمنطق التسلسلي تحت تأثير العمق
يتناول هذا المقال إطلاق معيار السقف المعقد (CCB) الذي يقيّم كيفية تدهور تفكير نماذج اللغة (Language Models) مع زيادة خطوات المنطق. تكشف النتائج عن أن كل نموذج ينهار بمعدل معين حسب العمق المطلوب، مما يشكل دليلاً على الحدود القصوى للأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
