تُعد نماذج اللغات الضخمة (Large Language Models) جزءًا لا يتجزأ من تطورات الذكاء الاصطناعي، ومع ذلك تواجه الوكلاء القائمين على هذه النماذج تحديات كبيرة في اتخاذ قرارات استخدام الأدوات بشكل صحيح. في كثير من الأحيان، تجعل هذه الوكلاء قرارات غير صحيحة، من بينها استخدام أدوات غير مدعومة أو تقديم ردود خاطئة.

تكمن المشكلة في أن الأساليب الحالية تعتمد بشكل كبير على تصحيح الأخطاء أثناء التنفيذ أو إشارة مكافأة تعتمد على نتائج القرارات، مما يترك خصائص عدم اليقين في قرارات الوكلاء دون استكشاف كافٍ. وقد أظهرت الدراسات أن التعلم المعزز الموجه نحو القرار يؤدي إلى تداخل عدم اليقين بين الإجراءات الصحيحة والخاطئة، مما يزيد من احتمالية الأخطاء الواثقة ويقلل من إشارات الاستكشاف.

لذا، تم تقديم نموذج TRUST، الذي يدمج قياس عدم اليقين في تصميم المكافآت كقوة دافعة للحفاظ على تمييز عدم اليقين، ويضع شروحات مرنة لتدريب موحد على المسارات متعددة المراحل.

أظهرت نتائج التجارب عبر مجموعة متنوعة من مقاييس استخدام الأدوات أن TRUST يعزز بشكل مطرد جودة القرارات وأداء الوكلاء، مع الحفاظ على تقديرات عدم اليقين بشكل أكثر موثوقية أثناء عملية التحسين.

هذا التطور يمثل خطوة هامة نحو إنشاء وكلاء ذكاء اصطناعي يمكنهم اتخاذ قرارات مستنيرة ومتزنة، مما يفتح آفاق جديدة للتفاعل مع التكنولوجيا.