في ظل الارتفاع المتزايد في معايير تقييم نماذج اللغات الضخمة (LLM)، اتجهت مجتمعات التقييم إلى ابتكار استراتيجيات جديدة لتعزيز مستوى التحدي. بين تصعيد المتطلبات المعرفية وإزالة المعرفة تمامًا لصالح التفكير التجريدي، يأتي أسلوب قياس التكامل الأساسي (Grounded Integration Measure - GIM) بخطوة جديدة.

يتضمن هذا الأسلوب الجديد تقييم 820 مشكلة أصلية (615 منها عامة و205 خاصة)، حيث يرتفع مستوى الصعوبة من خلال الدمج بين مهام مختلفة. تحتاج كل مشكلة إلى تنسيق بين عدة عمليات معرفية مثل الرضا عن القيود (Constraint Satisfaction)، تتبع الحالات (State Tracking)، اليقظة المعرفية (Epistemic Vigilance)، وتعديل الجمهور (Audience Calibration). بهذه الطريقة، يظل التفكير grounded في مهام واقعية دون الحاجة للخبرة المتخصصة.

فكل مشكلة تعتمد على تأليف خبير، حيث يستخدم معظمها نظام تقييم يتضمن ستة معايير تحكيم مستقلة. كما توفر التوزيعة المتوازنة بين المشاكل العامة والخاصة تشخيصًا مدمجًا للتلوث.

عبر ضبط نموذج استجابة لوجستي مستمر (2PL IRT) على أكثر من 200,000 زوج من المحفزات والاستجابات عبر 28 نموذجًا، تم إنتاج تقديرات قوية للقدرات. تظهر النتائج ترتيبًا صحيحًا لتكوينات الاختبار، حتى عند تشويه الدقة بسبب الأخطاء أو البيانات المفقودة.

تتضمن الدراسة أيضًا تصنيفًا شاملاً عبر 22 نموذجًا و47 تكوين اختبار، وتمثل الأبحاث الأكثر تفصيلاً حول كيفية تبادل الحقوق بين وقت الحوسبة وقدرة النموذج عند مستوى ثابت من التحدي.

من خلال تنفيذ هذا الإطار، نفتح الأبواب أمام فهم أعمق لكيفية تأثير خيارات التكوين ضمن العائلة، مثل ميزانية التفكير والتكميم، على تحديد النموذج. كما نوفر إطار التقييم، والمعلمات الخاصة بـ IRT، وجميع المشاكل العامة المتاحة للاستخدام.