في عالم الذكاء الاصطناعي، تعتبر 'الحوامل الوكيلة' (Agent Harnesses) بمثابة البرامج ذات الحالة التي تحيط بنموذج اللغة (Language Model) وتحدد ما يمكنه رؤيته في كل خطوة. تشير الدراسات إلى أن هذه الحوامل يمكن أن تزيد من الأداء الإجمالي لنموذج ثابت بمقدار يصل حتى ستة أضعاف. هذا يطرح سؤالًا ضروريًا: ما هو الجزء من كفاءة الوكيل الذي تتحمله الحوامل نفسها، ومقدار الدعم الذي لا يزال يحتاجه من نماذج اللغة الضخمة (LLMs)؟

أجرت دراسة جديدة في بيئة لعبة 'الباتلشيب التعاونية' (Collaborative Battleship)، وهي إعداد تخطيطي جزئي الملاحظة يتضمن تحديثات المعتقد، أسئلة تجمع المعلومات، واختيار الإجراءات المتوائمة مع عدم اليقين. تم تقسيم الحوامل التخطيطية إلى أربع طبقات متزايدة الغنى: تتبع المعتقدات السابقة، التخطيط الإعلاني، الانعكاس الرمزي، وبوابة المراجعة المدعومة من نموذج اللغة. تم قياس مساهمة كل طبقة تحت نفس زمن التشغيل.

اعتمدت الدراسة على معدل الفوز كمعيار رئيسي، وF1 كمؤشر ثانوي لاستهداف الأهداف المحلية. تشير النتائج المستخلصة من 54 مباراة إلى أن طبقة التخطيط الإعلاني هي الأكثر فعالية، حيث رفعت معدل الفوز من 50.0% إلى 74.1%، مما يظهر تأثيرًا كبيرًا على أداء اللعبة. بينما كانت الانعكاسات الرمزية فعّالة ميكانيكيًا، إلا أنها حساسة لعمليات المعايرة، مما أدى إلى تغييرات طفيفة في النتائج. ولم تُظهر بوابة المراجعة المدعومة من نموذج اللغة إسهامًا كبيرًا، حيث تنشط فقط في 4.3% من الحركات.

تسلط هذه الدراسة الضوء على أهمية توضيح الأدوار المختلفة لنماذج اللغة الضخمة في السياقات الوكيلة، مما يفتح مجالًا للنقاش حول كيفية تحسين أداء أنظمة الذكاء الاصطناعي.