في عالم الذكاء الاصطناعي، تأتي [دراسة](/tag/دراسة) "إعادة [التعلم](/tag/التعلم)" (Machine [Unlearning](/tag/unlearning)) لتسلط الضوء على كيفية إزالة تأثير [بيانات](/tag/بيانات) [تدريب](/tag/تدريب) معينة من النماذج، مع الحفاظ على [سلوك](/tag/سلوك) موثوق على [البيانات](/tag/البيانات) المتبقية. بهذه الطريقة، يصبح كل من [دقة](/tag/دقة) [التنبؤ](/tag/التنبؤ) (Predictive Accuracy) وتقدير [عدم اليقين](/tag/عدم-اليقين) ([Uncertainty](/tag/uncertainty) Estimation) أمرين أساسيين لتقييم [النماذج](/tag/النماذج).

تُستخدم عملية [المعايرة](/tag/المعايرة) ([Calibration](/tag/calibration)) بشكل شائع كمؤشر على [موثوقية](/tag/موثوقية) [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)). ومع ذلك، فإن الحصول على [خطأ](/tag/خطأ) [معايرة](/tag/معايرة) منخفض لا يعني بالضرورة أن القواعد المُعتمدة في [اتخاذ القرارات](/tag/اتخاذ-القرارات) موثوقة أيضًا. ففي بعض الأحيان، يمكن أن تعتمد [النماذج](/tag/النماذج) على ارتباطات زائفة، بينما تبقى [المعايرة](/tag/المعايرة) سليمة.

استنادًا إلى [أبحاث](/tag/أبحاث) حديثة، تم [فحص](/tag/فحص) هذا [الفجوة](/tag/الفجوة) في [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) التوليدية باستخدام [بروتوكول](/tag/بروتوكول) [تقييم](/tag/تقييم) الأسئلة المتعددة الخيارات على مرج TOFU، مما أدى إلى [قياس](/tag/قياس) [الموثوقية](/tag/الموثوقية) الاحتمالية باستخدام [مقاييس](/tag/مقاييس) [المعايرة](/tag/المعايرة) مثل ECE (Expected [Calibration](/tag/calibration) Error) وMCE (Maximum [Calibration](/tag/calibration) Error) وBrier. كما تم [تحليل](/tag/تحليل) [موثوقية](/tag/موثوقية) قواعد [اتخاذ القرار](/tag/اتخاذ-القرار) [عبر](/tag/عبر) [اكتشاف](/tag/اكتشاف) [الاختصارات](/tag/الاختصارات) المعتمدة على نسبة إخراج [المعلومات](/tag/المعلومات) مع [التدرجات](/tag/التدرجات) المتكاملة (Integrated Gradients) والمعلومات المحلية المتبادلة (Local Mutual Information).

وقد أظهرت النتائج أن [النماذج](/tag/النماذج) المتطورة [تحقق](/tag/تحقق) [خطأ](/tag/خطأ) [معايرة](/tag/معايرة) منخفضًا (~ 0.04) مقارنة بالنماذج المدربة مسبقًا التي تعاني من [خطأ](/tag/خطأ) يتجاوز 0.5. ومع إجراء عملية إعادة التعلم، تبقى [المعايرة](/tag/المعايرة) منخفضة على الرغم من انخفاض [دقة](/tag/دقة) الأداء، مما يشير إلى أن [التحليل](/tag/التحليل) القائم على النسب يُظهر اعتمادًا متزايدًا على الرموز المعتمدة على الارتباطات.

تؤكد هذه النتائج على أن [المعايرة](/tag/المعايرة) الجيدة يمكن أن تتواجد جنبًا إلى جنب مع قواعد [قرار](/tag/قرار) قائمة على [الاختصارات](/tag/الاختصارات) بعد عملية إعادة التعلم، مما يوسع المفارقة حول [الموثوقية](/tag/الموثوقية) في سياق إعادة [التعلم](/tag/التعلم).