تُعتبر نماذج اللغات الضخمة (LLMs) أداة مبتكرة قادرة على إنتاج نصوص معقدة، ولكنها تواجه تحديات كبيرة عند استخدامها في مهام غير قابلة للتحقق مثل الكتابة الإبداعية والحوار والأخلاق. ففي غياب علامة صحيحة توضح الجودة، يصعب تقييم الأداء بدقة. في هذا السياق، تقترح الأبحاث الجديدة نموذج CoNL الذي يعمل كإطار موحد يجمع بين التوليد والتقييم والتقييم الذاتي.

تكمن الفكرة الرئيسية في أن جودة النقد يمكن قياسها من خلال تأثيرها على تحسين الحلول المقدمة. باستخدام نموذج CoNL، يعمل عدد من الوكلاء الذين يتشاركون نفس السياسات في محادثات منظمة لتقديم حلول، وقيام بعضهم بنقد هذه الحلول وتعديلها. النقد الفعّال، الذي يساعد في تحسين الحلول، يحصل على مكافآت تشخيصية، مما يُنشئ إشرافًا واضحًا لتقييم الذات ويُعزز قدرة كل من توليد الحلول وتقييمها من خلال اللعب الذاتي دون الحاجة إلى قضاة خارجيين أو اثر مرجعي.

تُظهر التجارب على معايير مختلفة أن CoNL يحقق تحسينات متواصلة مقارنةً بنماذج المكافأة الذاتية، مع الحفاظ على استقرار التدريب. إن هذه الابتكارات تقدم رؤى جديدة حول كيف يمكننا استخدام الذكاء الاصطناعي بشكل أكثر فاعلية لإنتاج نصوص عالية الجودة وحتى تحسين أدوات التقييم ذاتها.