تطورت نماذج اللغة الكبيرة (LLM) بشكل ملحوظ، حيث أصبحت قادرة على تنفيذ مهام معقدة من خلال تتبع خطط وتنفيذ طويل. ومع ذلك، لا تزال القدرة على تحديد الأخطاء في هذه التتبعيات تعاني، خصوصًا في حالات الفشل الصامت حيث لا تظهر الأخطاء بشكل واضح.

تتضمن المناهج الحالية استخدام مصنفات أو حكام من نماذج اللغة لتحديد الخطوات المشكوك فيها، أو محاولة استعادة الإجابات الصحيحة من خلال إعادة التجربة، لكنnone منها تتعامل بشكل فعّال مع تحسين النتائج المسجلة.

تقدم الدراسة الجديدة، التي تم تقديمها تحت عنوان REFLECT، طريقة مبتكرة تخاطب هذه المشكلة من خلال تشخيص الخطوات المحتملة للخطأ، واختبارها بواسطة إعادة تشغيل مُحكمة مع تصحيح خاص بالتشخيص. تُستخدم النتائج الموثوقة لتحديث التقديرات النهائية، مما يحسن من دقة تحديد الأخطاء بشكل ملحوظ.

عبر أربعة معايير موثوقة لتحديد الأخطاء تغطي مجالات متعددة، أثبتت طريقة REFLECT أنها تحقق أعلى دقة في تحديد الأخطاء مقارنةً بالطرق التقليدية، وبشكل خاص في تتبع استخدام الأدوات الهيكلية.

مع تعزيز القدرة على تحديد الأخطاء حتى في الحالات التي لا تتوافر فيها الإجابات الحقيقية، يمكن أن يكون لهذه الطريقة تأثير كبير في تحسين أداء نماذج اللغة الكبيرة وتطبيقاتها.