تتسارع وتيرة الابتكارات في مجال الذكاء الاصطناعي، وبالتحديد في نماذج اللغة الكبيرة (LLMs)، مع تطوير نماذج متعددة الوسائط (MLLMs) تعتمد على أسس مشتركة، مما يؤدي إلى نشوء سلاسل نموذجية متميزة. ولكن تبقى أمامنا تساؤلات حول ما إذا كانت هناك علاقة سلوكية جوهرية بين نماذج التأسيس ونماذجها المشتقة.

في بحثنا، قررنا دراسة هذه العلاقة عن طريق قياس درجات السياق-الحقيقة على مستوى المستخدم. وقد شملنا في بحثنا مجموعة متنوعة من سلاسل النماذج، منها نماذج مثل Vicuna، Qwen2.5، LLaMA2، وMistral. وقد اكتشفنا أن درجات الحقيقة تُحافظ بقوة ضمن عائلات النماذج، حتى بعد إجراء عمليات الضبط التعليمي أو التكيف متعدد الوسائط.

نقدم في هذا البحث أيضًا مفهومًا جديدًا يسمى TruthProbe، وهي استراتيجية تفعيل ناعمة تعزز من أداء الرؤوس السياقية الحقيقية دون التأثير على مساهمات بقية الرؤوس. أظهرت النتائج أن TruthProbe يحسن من الدقة السياقية على HaluEval ويقلل من الهلوسة متعددة الوسائط على POPE وCHAIR، مع انتقال فعال لدرجات الحقيقة من النموذج الأساسي إلى النماذج المشتقة.

للمزيد من المعلومات، يمكنكم الاطلاع على الكود المتاح على GitHub.