في عصر الذكاء الاصطناعي، يبقى تدريب نماذج اللغات الكبيرة (Large Language Models) كوكيل تفاعلي في صنع القرار خلال عدة محادثات تحديًا معقدًا. وخاصة في المهام طويلة الأمد التي تعتمد على مكافآت نادرة ومتأخرة، يجب على الوكلاء تنفيذ تسلسلات طويلة من الإجراءات قبل تلقي أي استجابة فعلية.

عادةً ما تعتمد الأساليب الحالية في التعلم المعزز (Reinforcement Learning) على نماذج بسيطة تعمل كمخططات مسطحة، مما يختار إجراءً واحدًا في كل جولة. لكن، تكمن المشكلة في أن هذه السياسات المسطحة تحتاج إلى توزيع المكافأة عبر المسار الكامل دون وجود تجريد زمني واضح، مما يؤدي غالبًا إلى تحسين غير مستقر وتخصيص غير فعال للمكافآت.

لهذا، تم تقديم HiPER، إطار العمل الجديد الذي ينظم عملية التخطيط والتنفيذ بشكل هرمي. فعن طريق فصل التخطيط عالي المستوى عن التنفيذ منخفض المستوى، يتيح HiPER للسياسة أن تقترح أهدافًا فرعية، بينما ينفذها المنفذ على مدى عدة خطوات عمل.

لكن هنا يأتي الابتكار الحقيقي؛ حيث تم تقديم تقنية جديدة تسمى تقدير المزايا الهرمي (Hierarchical Advantage Estimation) التي تضمن توزيع المكافآت بذكاء في كل من مستويات التخطيط والتنفيذ. بتجميع العائدات أثناء تنفيذ كل هدف فرعي، وتنسيق التحديثات عبر المستويين، يوفر HiPER تقديرًا غير متحيز للتدرجات ويقلل من التباين مقارنةً بالتقدير التقليدي.

تجريبياً، أثبت HiPER أداءً بارزًا على المعايير التفاعلية الصعبة، حيث حقق نجاحًا بنسبة 97.4% في ALFWorld و83.3% في WebShop باستخدام Qwen2.5-7B-Instruct، متفوقًا بنسبة تصل إلى 8.3% مقارنةً بأفضل الطرق السابقة. هذه النتائج تسلط الضوء على أهمية التفكيك الهرمي الواضح للتدريب القابل للتوسع لوكلاء نماذج اللغات الكبيرة في المهام متعددة الأدوار.

تتجه الأنظار الآن نحو الامكانيات الهائلة لإطار HiPER في تدريب نماذج الذكاء الاصطناعي المستقبلية.