في عالم الذكاء الاصطناعي، تكمن [تحديات](/tag/تحديات) كبيرة عند [تصميم](/tag/تصميم) [وكلاء](/tag/وكلاء) مركبين في بيئات تنافسية جزئياً. تتطلب هذه [العملية](/tag/العملية) [التفكير](/tag/التفكير) في عدة أبعاد تصميمية مهمة، منها ما يراه الوكيل، وكيف يقوم بعمليات الاستدلال، وكيفية تفكيك المهام [عبر](/tag/عبر) المكونات المختلفة. برغم ذلك، لا يتوفر الكثير من الإرشادات للممارسين حول خيارات [التصميم](/tag/التصميم) التي تحسن [الأداء](/tag/الأداء) بدلاً من زيادة [تكاليف](/tag/تكاليف) [الاستدلال](/tag/الاستدلال).

وفي خطوة مثيرة، تم إجراء [دراسة](/tag/دراسة) [محكمة](/tag/محكمة) حول [تصميم](/tag/تصميم) [وكلاء](/tag/وكلاء) [LLM](/tag/llm) المركبين ضمن [بيئة](/tag/بيئة) الدفاع السيبراني CybORG CAGE-2، والتي تم نمذجتها كعملية [قرار](/tag/قرار) [ماركوف](/tag/ماركوف) القابلة للملاحظة جزئياً (Partially Observable Markov Decision Process - [POMDP](/tag/pomdp)). في هذه الدراسة، كانت [المكافآت](/tag/المكافآت) غير إيجابية، مما يعني أن جميع التكوينات تعمل في وضع تقليل الفشل.

شملت [التقييمات](/tag/التقييمات) خمسة [عائلات](/tag/عائلات) نماذج، وستة نماذج، واثني عشر تكويناً (3,475 حلقة) مع [محاسبة](/tag/محاسبة) [تكاليف](/tag/تكاليف) على مستوى الرموز. تم تغيير [تمثيل السياق](/tag/تمثيل-[السياق](/tag/السياق)) (المشاهدات الخام مقابل طبقة [تتبع](/tag/تتبع) حالة محددة مع [تاريخ](/tag/تاريخ) مضغوط) وأدوات [التفكير](/tag/التفكير) (الاستجواب الذاتي، النقد الذاتي، وأدوات [تحسين](/tag/تحسين) الذات، مع [تحفيز](/tag/تحفيز) اختياري لسلسلة الأفكار) وتفكيك الهرمية (استجابة شاملة مقابل [تفويض](/tag/تفويض) لفرعيين متخصصين).

أظهرت النتائج ما يلي:
1. يوفر تجريد الحالة البرمجي أكبر عوائد لكل رمز يُصرف، محققاً تحسناً يصل إلى 76% عن المشاهدات الخام.
2. يؤدي توزيع [أدوات](/tag/أدوات) [التفكير](/tag/التفكير) [عبر](/tag/عبر) الهياكل الهرمية إلى تدهور [الأداء](/tag/الأداء) مقارنةً بالهياكل الهرمية وحدها لعائلات [النماذج](/tag/النماذج) الخمسة، حيث تراجعت العوائد إلى 3.4 مرة أسوأ، مع استخدام 1.8-2.7 مرة المزيد من الرموز. نسمي هذا النمط المدمر "cascade [التفكير](/tag/التفكير)".
3. يحقق تفكيك الهرمية بدون [تفكير](/tag/تفكير) أفضل [أداء](/tag/أداء) مطلق لمعظم النماذج، ويكون [هندسة](/tag/هندسة) [السياق](/tag/السياق) عموماً أكثر فعالية من حيث التكلفة من [التفكير](/tag/التفكير).

تشير هذه النتائج إلى مبدأ [تصميم](/tag/تصميم) استراتيجي لبيئات [POMDP](/tag/pomdp) المعقدة: ينبغي [الاستثمار](/tag/الاستثمار) في [البنية التحتية](/tag/البنية-التحتية) البرمجية وتفكيك المهام النظيفة بدلاً من [التفكير](/tag/التفكير) الأعمق لكل وكيل، لأن هذه [الاستراتيجيات](/tag/الاستراتيجيات) يمكن أن تتداخل عندما تتجمع.