في ظل الارتفاع المتزايد في [معايير تقييم](/tag/[معايير](/tag/معايير)-[تقييم](/tag/تقييم)) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLM](/tag/llm))، اتجهت [مجتمعات](/tag/مجتمعات) [التقييم](/tag/التقييم) إلى [ابتكار](/tag/ابتكار) [استراتيجيات جديدة](/tag/[استراتيجيات](/tag/استراتيجيات)-جديدة) لتعزيز مستوى التحدي. بين تصعيد المتطلبات المعرفية وإزالة [المعرفة](/tag/المعرفة) تمامًا لصالح [التفكير](/tag/التفكير) التجريدي، يأتي أسلوب [قياس](/tag/قياس) التكامل الأساسي (Grounded Integration Measure - [GIM](/tag/gim)) بخطوة جديدة.
يتضمن هذا الأسلوب الجديد [تقييم](/tag/تقييم) 820 مشكلة أصلية (615 منها عامة و205 خاصة)، حيث يرتفع مستوى [الصعوبة](/tag/الصعوبة) من خلال [الدمج](/tag/الدمج) بين مهام مختلفة. تحتاج كل مشكلة إلى [تنسيق](/tag/تنسيق) بين عدة [عمليات معرفية](/tag/عمليات-معرفية) مثل الرضا عن [القيود](/tag/القيود) (Constraint Satisfaction)، [تتبع](/tag/تتبع) الحالات (State Tracking)، اليقظة المعرفية (Epistemic Vigilance)، وتعديل الجمهور (Audience Calibration). بهذه الطريقة، يظل [التفكير](/tag/التفكير) grounded في مهام واقعية دون الحاجة للخبرة المتخصصة.
فكل مشكلة تعتمد على تأليف خبير، حيث يستخدم معظمها نظام [تقييم](/tag/تقييم) يتضمن ستة [معايير](/tag/معايير) تحكيم مستقلة. كما توفر التوزيعة المتوازنة بين المشاكل العامة والخاصة تشخيصًا مدمجًا للتلوث.
[عبر](/tag/عبر) ضبط [نموذج](/tag/نموذج) استجابة لوجستي مستمر (2PL IRT) على أكثر من 200,000 زوج من المحفزات والاستجابات [عبر](/tag/عبر) 28 نموذجًا، تم إنتاج تقديرات قوية للقدرات. تظهر النتائج ترتيبًا صحيحًا لتكوينات الاختبار، حتى عند تشويه [الدقة](/tag/الدقة) بسبب [الأخطاء](/tag/الأخطاء) أو [البيانات المفقودة](/tag/[البيانات](/tag/البيانات)-المفقودة).
تتضمن [الدراسة](/tag/الدراسة) أيضًا تصنيفًا شاملاً [عبر](/tag/عبر) 22 نموذجًا و47 تكوين اختبار، وتمثل [الأبحاث](/tag/الأبحاث) الأكثر تفصيلاً حول كيفية تبادل الحقوق بين وقت [الحوسبة](/tag/الحوسبة) وقدرة النموذج عند مستوى ثابت من التحدي.
من خلال [تنفيذ](/tag/تنفيذ) هذا الإطار، نفتح الأبواب أمام [فهم](/tag/فهم) أعمق لكيفية تأثير خيارات التكوين ضمن العائلة، مثل [ميزانية](/tag/ميزانية) [التفكير](/tag/التفكير) والتكميم، على تحديد النموذج. كما نوفر إطار التقييم، والمعلمات الخاصة بـ IRT، وجميع المشاكل العامة المتاحة للاستخدام.
تحول جديد في تقييم نماذج الذكاء الاصطناعي: قياس تكامل الأداء المعرفي
تقدم دراسة جديدة طريقة مبتكرة لتقييم نماذج الذكاء الاصطناعي من خلال دمج مهام تتطلب تنسيقًا بين العمليات المعرفية. تعتمد هذه الطريقة على أداة قياس التكامل الأساسي (GIM) التي تتضمن 820 مشكلة أصلية لرفع مستوى التحدي في الاختبارات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
