في عالم يتطور بسرعة حول الذكاء الاصطناعي، يعتبر تحقيق دقة عالية في توليد المخرجات أمراً بالغ الأهمية، خاصة في مجالات مثل تعبئة النماذج، والتحقق من الالتزام، وإعداد تقارير الصيانة. حيث يجب أن تكون مخرجات نماذج اللغة الكبيرة (LLMs) صحيحة محلياً ومتسقة عالمياً وقابلة للتدقيق وفقاً لقواعد محددة. للأسف، تعتمد معظم طرق التحسين الحالية على أساليب تقليدية مثل النقاشات بالحدس، ولعب الأدوار الذاتية، أو إشراف LLM، مما يخلق مشكلة ضمان من الدرجة الثانية.

تقدم التقنية الجديدة، DPA-GRPO (علبة تدريب العمل المزدوج - سياسة تحسين مجموعة الأفعال النسبية)، نهجاً مبتكراً من خلال تدريب عمل مزدوج يمتد ليشمل لعبة توليد-تحقق للثنائي مع تدخلات تحقق هيكلية. حيث يقوم المُولد بإنتاج مُخرجات وقد يقوم بتعديلها عند مواجهته بالتحدي، بينما يختار المُحقق البقاء صامتاً أو رفع قضية ضمان السلامة (SAC) تتضمن ادعاءً وحجةً وأدلة. هذه القرارات SAC/no-SAC و KEEP/REVISE تنشئ مجموعات أفعال مضادة مزدوجة، وهو ما تستخدمه DPA-GRPO لتحديثات سياسة GRPO المُنظمة الخاصة بالأدوار.

من خلال تحليل اللعبة غير المنظمة، نجد أن احتمالية إيجابية على أفعال التدخل أو التعديل ذو العائد المنخفض تنشئ انحرافاً أحادي الجانب مربحاً. ووفقاً لافتراضات التقريب العشوائي القياسية، تتبع DPA-GRPO المعادلة التفاضلية المتعلقة باللعبة، حيث تكون نقاط الاستقرار الحدية المستقلة مرشحة لتوازن محلي تحت الأمثلية المحلية بحسب الأدوار.

أظهرت التجارب على TaxCalcBench TY24 أن DPA-GRPO تحسن دقة اتخاذ القرارات الهيكلية مقارنةً بالتوليد بدون تدريب وبالمقاييس التقليدية. حيث يزيد التدريب من قبول الصمت الصحيح، ويقلل من الأخطاء المفقودة، ويحسن سلوك التعديل المُضبط، مما يشير إلى مزايا لكل من المُولد والمُحقق. في ضوء كل ما تم ذكره، هل أنتم مستعدون للغوص في عالم من الإمكانيات اللا محدودة للذكاء الاصطناعي؟