تتزايد استخدامات نماذج اللغة الضخمة (LLMs) في مهام تتعلق بحل مسائل الرضا المنطقي (SAT)، ولكن تبقى قدرتها على الاستدلال في هذا السياق محل تساؤل. في دراسة منهجية جديدة، تم تحليل نماذج LLMs على نوعين من مسائل SAT، وهما 2-SAT و3-SAT، بالإضافة إلى التحويلات الأساسية مثل تغطية الرؤوس (Vertex Cover) والتعبئة ثلاثية الأبعاد المنفصلة (discrete 3D packing) لفهم كيفية تحسن قدرات الاستدلال.

تم تقييم النماذج وفقاً لمعايير تقليدية مثل الدقة، والتمييز، والاستعادة، وأيضاً وفقاً لفترة الانتقال في SAT. النتائج كانت مفاجئة، حيث أظهرت أن العديد من النماذج كانت تحقق درجات عالية من خلال الإفراط في توقع الصيغ القابلة للحل، وفشلت في إنتاج التوقيع التقليدي السهل-الصعب-السهل حول عتبة 3-SAT، وتدهورت بشكل حاد كلما ازداد عدد المتغيرات.

لمعالجة هذا الأمر، قدم الباحثون بروتوكول صيغ مفصولة يعتمد على حالات قابلة للحل وغير قابلة للحل، مع معدل تمييز دقيق (Accurate Differentiation Rate - ADR) الذي يتطلب تصنيف كلا العضوين من كل زوج بشكل صحيح. يميز ADR بين النماذج الموجهة نحو الاستدلال ونماذج القواعد العامة، ويرتبط بصحة الشهادات.

علاوة على ذلك، تم اختبار ثبات القرار عبر التحويلات من CNF (formulation in Conjunctive Normal Form) إلى تغطية الرؤوس، ومن 3-SAT إلى التعبئة ثلاثية الأبعاد المنفصلة. وقد أظهرت النتائج أن قرارات النماذج على CNF وعلى التحويلات المقابلة تتفق لأكثر من 80% من الحالات، مما يشير إلى وجود قواعد قرار ثابتة عبر التمثيلات.

بشكل عام، توضح نتائج الدراسة أن SAT هو أداة محافظة لفحص استدلال نماذج اللغة الضخمة، وتبين أن التقييم المفصول باستخدام ADR يوفر تقييمًا أكثر دقة وقوة في التمثيل مقارنة بالمعايير التقليدية.