في عالم الذكاء الاصطناعي، تتجه الأبحاث إلى تحسين قدرة الوكلاء على استخدام أدوات متعددة لتحقيق نتائج دقيقة في المهام المعقدة. ومن بين هذه الابتكارات الجديدة، تبرز PORTool، خوارزمية تحسين السياسات التي تأخذ في الاعتبار أهمية القرارات المتخذة خلال فترة تنفيذ المهمة.

تفاعلت الوكلاء المدعومة من نماذج اللغات الضخمة (Large Language Models) مع أدوات خارجية بسبب تعقيد المهام، إلا أن التحدي الأساسي كان عدم القدرة على تحديد خطوات النجاح والفشل بشكل دقيق. أما PORTool، فقد تم تصميمها لتقديم تعزيز فعّال لقدرات استخدام الأدوات من خلال مبدأ تعيين المكافآت عند مستوى الخطوات.

تعتمد PORTool على إنشاء شجرة مكافآت، حيث يتم جمع مسارات القرارات المتداخلة قبل التفرع، مما يتيح مقارنة فعالة بين خيارات استخدام الأدوات المختلفة في نفس السياق. يتم تقدير أهمية كل خطوة في الشجرة وفقاً لإشارات سلبية تشير إلى دقة النتائج المحتملة. هذا لا يعزز فقط فعالية الخدمات، بل يضمن أيضاً تنفيذ الأدوات بنجاح وفقاً لمعايير معينة.

تظهر التجارب أن PORTool تعزز دقة الإجابات النهائية وتقليل عدد خطوات استدعاء الأدوات مقارنةً بأساليب تحسين السياسات السابقة. أثبتت الدراسات العميقة مدى فعالية تقديرات الأهمية على مستوى الخطوات، مما يجعل هذه الخوارزمية خطوة رائدة نحو المستقبل المشرق لوكلاء الذكاء الاصطناعي.