شهدت نماذج اللغات الضخمة (Large Language Models) في الآونة الأخيرة تطوراً ملحوظاً في قدرتها على تقديم الإجابات، لكن السؤال الأهم يكمن في كيفية قياس اتساق هذه الإجابات. قد تصل هذه النماذج إلى نفس النتيجة عبر مسارات استدلال غير مستقرة أو متناقضة، مما يمثل وضعية خطيرة خاصة في عمليات الاستدلال الاستنتاجي متعددة الخطوات. عادةً ما يتم تقييم موثوقية هذه النماذج من خلال قياس تباين المخرجات فقط، مما يفقدنا إشارة مكملة تتمثل في قدرة النموذج على تصنيف خياراته بشكل متسق.

قدم الباحثون في دراسة جديدة مفهوم "عدم الاستقرار الهيكلي"، وهو إطار عمل يفحص الاتساق من خلال استقرار التفضيلات الذاتية. تقوم هذه الطريقة على إنشاء حزمة من الحلول المحتملة بالسماح للنموذج بتقييم تفضيلاته الخاصة بشكل زوجي. يتم دمج هذه التفضيلات الذاتية في توزيعات ترتيبية باستخدام نمذجة برادلي-تيري وتطبيق تقنية PageRank، ويتم تحليل الإشارات إلى مكونين يعتمد كل منهما على الانتروبيا: عدم الاستقرار في الترتيب عبر التجارب والغموض داخل التجربة.

عبر تحليلات أجريت على خمس نماذج لغوية ضخمة وثمانية معايير، أظهرت الإشارات الهيكلية معلومات مكملة لتباين الإجابات. في مهام الاستدلال المنطقي والرياضي، أدت هذه الإشارات إلى تحسين تحديد الحالات غير الموثوقة. أما في استرجاع المعلومات الواقعية، فقد أظهرت إشارات عدم الاستقرار الهيكلي انحداراً نحو التساوي، مشيرة إلى حدود معينة حيث يكون تقييم الاتساق على مستوى التفكير غير مفيد.

من الجدير بالذكر أن هذين المكونين يرتبطان بشكل مختلف مع الدقة: الانغماس داخل التجربة ينسجم إيجابياً مع الدقة، ما يتوافق مع الحالات التي تبقى فيها مسارات الحل المحتملة تنافسية. بينما يرتبط عدم الاستقرار عبر التجارب سلبياً، مما يدل على عدم موثوقية الاستدلال. لذا، يمكن اعتبار عدم الاستقرار الهيكلي ليس كأداة تقدير ثقة عالمية، ولكن كمدخل حساس لقوانين تقييم اتساق التفكير المنطقي.