تعتبر الأعمال المنزلية الطويلة الأمد تحديًا كبيرًا للروبوتات، حيث تتطلب تخطيطًا قويًا وقدرات قوية على التحليل والتفكير المستمر. ولذا، أطلق الباحثون معيار 'LongAct' الذي يسعى إلى تقييم الاستقلالية التخطيطية في تنفيذ تلك المهام مع التركيز على التعليمات المفتوحة.

يهدف 'LongAct' إلى تحليل القدرات المعرفية العليا مثل فهم التعليمات، وإدارة الاعتمادات، والحفاظ على الذاكرة، والتخطيط التكيفي، متجاوزًا بذلك التحكم المنخفض المستوى المخصص للروبوتات.

بالإضافة إلى ذلك، تم تقديم 'HoloMind'، وكيل مدفوع بنموذج لغوي ضخم (VLM) يقوم على تخطيط هيراركي طويل الأمد، مزودًا بذاكرة مكانية متعددة النماذج لنمذجة العالم بشكل دائم وذاكرة متسلسلة لإعادة استخدام التجارب.

تظهر التجارب التي أجريت باستخدام نماذج GPT-5 و Qwen3-VL أن HoloMind يعزز بشكل كبير الأداء في المهام الطويلة الأمد، مع تقليل الاعتماد على حجم النموذج. ومع ذلك، تبين أن النماذج الرائدة لا تحقق سوى 59% من إتمام الأهداف و16% من النجاح الكامل في المهام، مما يبرز صعوبة معيار LongAct والحاجة إلى تحسين التخطيط الطويل الأمد في الوكلاء المدعومين بالذكاء الاصطناعي.