في عالم الذكاء الاصطناعي، تعتبر النماذج اللغوية (Language Models) أدوات حيوية لتعزيز قدرات الفهم والاستدلال. ومع ذلك، تظهر التحديات عندما تصبح سلسلة استدلالات النموذج غير موثوقة، حيث تفشل هذه النماذج في تقديم اجابات نهائية صحيحة. للتغلب على هذه العقبة، تم تقديم طريقة جديدة تُسمى CROP (Conformal Reasoning Output Prefixes).

تعمل CROP كنظام لضمان سلامة استدلالات النموذج من خلال تقييم المقدمات الاستدلالية واستبعاد الأخطاء المحتملة. وعبر اختيار عتبة مسبقة التحقق، تقوم هذه الطريقة بتحديد الأطوال الأطول من المقدمات المتصلة التي تظل تحت هذه العتبة. وبالتالي، يتم توجيه الأجزاء غير المصادق عليها للمراجعة أو التصحيح اللاحق.

لقد أظهرت أبحاث متعمقة على ستة مجموعات بيانات مختلفة أن المؤشرات التقليدية مثل AUROC لا تعكس فعالية المقدمات، مما يُبرز أهمية تقييم طول المقدمات المصدقة بشكل أكبر. تعمل CROP على تحقيق توازن مثالي بين التخزين المفرط أو غير الكافي، مما يؤدي إلى تحسين دقة الإصلاحات المستقبلية من خلال الحفاظ على خطوات استدلال صحيحة وتجاهل الأجزاء المضللة.

تضع هذه الدراسة CROP كحل واعد لربط بين الإشراف على العمليات، والامتناع، والإصلاح، مما يفتح آفاق جديدة في كيفية تحسين دقة النماذج اللغوية وتطبيقاتها في المستقبل.