في عالم الذكاء الاصطناعي (AI)، يشهد استخدام أدوات الحل الرسمية مثل SAT و SMT (Satisfiability Modulo Theories) نمواً ملحوظاً في تدفق عمليات التفكير للنماذج اللغوية الكبيرة (LLMs)، خاصة عند التعامل مع الأسئلة الحرجة المتعلقة بالسلامة والأمان. بينما توفر أدوات الحل إجابات موثوقة يمكن التحقق منها بشكل مستقل، تواجه هذه الأنظمة مشكلة خطيرة تُعرف بفجوة السرد.

ثلاثة مكونات رئيسية تشكل نظام LLM-Solver: صياغة السؤال، اتخاذ القرار، وسرد النتيجة. تمت دراسة المكونين الأولين بشكل جيد، لكن فجوة السرد لا تزال غير مفهومة بعمق. وهذا السرد هو ما يحول نتائج الأدوات الرسمية إلى إجابات للمستخدمين.

في سياق محاولات سد فجوة السرد، قمنا بنمذجة دوائر LLM-Solver كإجراءات قرار تم التحقق منها. كما قمنا أيضاً بتقييم خمسة نماذج مفتوحة المصدر تحت تأثير إدخال الموجهات، ووجدنا أن استخدام أساليب تصنيف الشهادات يمكن أن يجعل حكم الحل موثوقاً. لكن التحديات لا تتوقف عند هذا الحد، إذ يمكن للخصوم أن يعكسوا الاستنتاجات المصدقة عبر صيغ وقنوات مختلفة.

عبّرنا عن أهمية دراسة طرق التخفيف من خلال تحسين الموجهات، مما يقلل من تأثير الإدخال بشكل كبير، لكن لا يمكن القضاء عليه بشكل كامل. حتى مع ذلك، تبين أن الأنظمة لا تزال تعاني تحت الهجمات التكيفية.

من خلال الجمع بين التحليل الرسمي والدراسات التجريبية، يتضح أن القوة والمتانة التي نحتاجها لا تصل إلى النتيجة النهائية التي يراها المستخدم. يعد فهم فجوة السرد في دوائر LLM-Solver خطوة حاسمة لتحقيق دقة أعلى وموثوقية أكبر في الذكاء الاصطناعي.