تُعد زيادة موثوقية نماذج اللغات الضخمة (Large Language Models) أثناء وقت الاستدلال تحدياً رئيسياً في المهام الهيكلية مثل تحويل النص إلى SQL. تعتمد استراتيجيات الاستدلال التقليدية في وقت الاختبار، مثل تقنيات Best-of-N والتصويت بالأغلبية، على إشارات وصفية مثل نجاح التنفيذ أو تكرار النتائج، مما يوفر تميزًا دلاليًا محدودًا عبر المخرجات المحتملة.

في هذه الدراسة، نستعرض نموذج Outcome Reward Models (ORMs) كوظائف تسجيل دلالية متعلمة للتحقق أثناء تحويل النص إلى SQL. على الرغم من استكشاف ORMs سابقًا لأغراض التوسيع والتحسين في وقت الاختبار، إلا أن تطبيقها على توليد الاستفسارات الهيكلية لم يُستكشف بعد بالشكل الكافي.

نقدم GradeSQL، وهو إطار عمل قابل للتوسع لتدريب ORMs الخاصة بالمهام عبر توليد مرشحين آليًا وتصنيف بناءً على التنفيذ، مما يتيح تدريب المُحققين دون الحاجة لتصنيف يدوي. لقد قمنا بدمج ORMs في خط أنابيب يعتمد على التحقق وقياس الأداء الخاص بنا باستخدام معايير BIRD وSpider عبر عدة مجموعات نماذج مفتوحة المصدر.

أظهرت النتائج أن اختيار ORMs يتفوق باستمرار على تقنيات Best-of-N والتنفيذ، حيث حققنا تحسينات تصل إلى +4.33% على BIRD و+2.10% على Spider. بالإضافة إلى ذلك، يظهر ORMs تحقيق أداء جيد مع مجموعات مرشحة أكبر، مما يؤدي إلى تحسينات أكبر في الاستفسارات المعقدة. في المجمل، تُظهر نتائجنا أن التحقق القائم على ORMs يقدم بديلاً بسيطًا وفعالًا وقابلًا للتوسع لاستراتيجيات الاختيار الوصفية في وقت الاختبار لتحويل النص إلى SQL.