في عالم الذكاء الاصطناعي، تشكل قدرة النماذج (Model Capability) المتغير المركزي في تدريب نماذج اللغات الكبيرة (Large Language Models)، ومع ذلك، فإن هذه القدرة لا تُلاحَظ بشكل مباشر. يرتبط شكل البيانات بالقوة المرتبطة بالقدرة على التقييم، إلا أن هذه العملية تؤدي في النهاية إلى معلومات غير دقيقة تدعو للقلق. قامت الدراسة التي تم نشرها مؤخرًا بتقديم مفهوم القطعة المعززة للقدرة (Capability Slice)، والذي يتيح لنا معالجة مشكلات النموذج بطريقة أكثر تحديدًا.

يعمل هذا المنهج على تقليل الفجوة بين رصد فشل النموذج، الذي يُكتشف أولاً، واستنتاج التحسينات المطلوبة على مجموعة البيانات. يستند البحث إلى نموذج تقييم جديد، مما يسمح بالتعامل مع بيانات تنسيق معقدة وصعبة، ويجمع بين أحجام عينة التقييم والبيانات وفقًا لنوع المهمة وظروف الخلفية وخصائص المخرجات.

اجريت اختبارات عملية على حالتين دراسيتين متباينتين:
1. في البداية، أظهر التحليل أن تمديد فترة ما قبل التدريب ساعد في خفض BBH (Benchmark Baseline High) بنسبة 46.82%، وتم التعرف على الفشل كجزء من فقدان معين في نموذج البيانات مما أتاح استعادة الأداء العالي للنموذج دون تعديل بيانات التدريب.
2. من ناحية أخرى، كشفت حالة أخرى عن ضعف مستمر في القدرة على المعالجة الرياضية، حيث أدى التحليل الدقيق إلى استنتاج أن تحسين الأنماط المستهدفة في العينة قد أدى إلى رفع الأداء في امتحانات AIME2025/AIME2026 بشكل ملحوظ.

تظهر النتائج التجريبية أنه يمكن تحقيق استنتاجات دقيقة حول البيانات عبر تقييم موضوعي، مما يفتح الأبواب لتطبيقات أكثر دقة في تحسين أداء النماذج الكبيرة في المستقبل.