في ظل الارتفاع المتزايد في [معايير تقييم](/tag/[معايير](/tag/معايير)-[تقييم](/tag/تقييم)) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLM](/tag/llm))، اتجهت [مجتمعات](/tag/مجتمعات) [التقييم](/tag/التقييم) إلى [ابتكار](/tag/ابتكار) [استراتيجيات جديدة](/tag/[استراتيجيات](/tag/استراتيجيات)-جديدة) لتعزيز مستوى التحدي. بين تصعيد المتطلبات المعرفية وإزالة [المعرفة](/tag/المعرفة) تمامًا لصالح [التفكير](/tag/التفكير) التجريدي، يأتي أسلوب [قياس](/tag/قياس) التكامل الأساسي (Grounded Integration Measure - [GIM](/tag/gim)) بخطوة جديدة.

يتضمن هذا الأسلوب الجديد [تقييم](/tag/تقييم) 820 مشكلة أصلية (615 منها عامة و205 خاصة)، حيث يرتفع مستوى [الصعوبة](/tag/الصعوبة) من خلال [الدمج](/tag/الدمج) بين مهام مختلفة. تحتاج كل مشكلة إلى [تنسيق](/tag/تنسيق) بين عدة [عمليات معرفية](/tag/عمليات-معرفية) مثل الرضا عن [القيود](/tag/القيود) (Constraint Satisfaction)، [تتبع](/tag/تتبع) الحالات (State Tracking)، اليقظة المعرفية (Epistemic Vigilance)، وتعديل الجمهور (Audience Calibration). بهذه الطريقة، يظل [التفكير](/tag/التفكير) grounded في مهام واقعية دون الحاجة للخبرة المتخصصة.

فكل مشكلة تعتمد على تأليف خبير، حيث يستخدم معظمها نظام [تقييم](/tag/تقييم) يتضمن ستة [معايير](/tag/معايير) تحكيم مستقلة. كما توفر التوزيعة المتوازنة بين المشاكل العامة والخاصة تشخيصًا مدمجًا للتلوث.

[عبر](/tag/عبر) ضبط [نموذج](/tag/نموذج) استجابة لوجستي مستمر (2PL IRT) على أكثر من 200,000 زوج من المحفزات والاستجابات [عبر](/tag/عبر) 28 نموذجًا، تم إنتاج تقديرات قوية للقدرات. تظهر النتائج ترتيبًا صحيحًا لتكوينات الاختبار، حتى عند تشويه [الدقة](/tag/الدقة) بسبب [الأخطاء](/tag/الأخطاء) أو [البيانات المفقودة](/tag/[البيانات](/tag/البيانات)-المفقودة).

تتضمن [الدراسة](/tag/الدراسة) أيضًا تصنيفًا شاملاً [عبر](/tag/عبر) 22 نموذجًا و47 تكوين اختبار، وتمثل [الأبحاث](/tag/الأبحاث) الأكثر تفصيلاً حول كيفية تبادل الحقوق بين وقت [الحوسبة](/tag/الحوسبة) وقدرة النموذج عند مستوى ثابت من التحدي.

من خلال [تنفيذ](/tag/تنفيذ) هذا الإطار، نفتح الأبواب أمام [فهم](/tag/فهم) أعمق لكيفية تأثير خيارات التكوين ضمن العائلة، مثل [ميزانية](/tag/ميزانية) [التفكير](/tag/التفكير) والتكميم، على تحديد النموذج. كما نوفر إطار التقييم، والمعلمات الخاصة بـ IRT، وجميع المشاكل العامة المتاحة للاستخدام.