تسعى الأبحاث الحديثة إلى تحسين فعالية الأنظمة المدمجة (Embodied Agents)، التي تستخدم نماذج اللغة والرؤية (Vision-Language Models - VLMs) كمتخطيطين. هذه الأنظمة تواجه تحديات متعددة فيما يتعلق بزيادة زمن الاستجابة واستخدام التوكنات، مما يؤثر على أدائها في المهام المختلفة. يشير الباحثون إلى أن مسألة تخصيص الحوسبة أثناء الاختبار (test-time compute) تكتسي أهمية مركزية في تحسين الأداء في العالم الحقيقي.

يأتي الحل من خلال تقنية جديدة تُدعى DIRECT، وهي إطار عمل توزيع الحوسبة يعتمد على سياق المشهد المتعدد الوسائط (multimodal scene context). تهدف DIRECT إلى تحسين نجاح الأنظمة مع تقليل التكاليف، من خلال تحديد الوقت والمكان الأنسب لاستخدام الحوسبة. تظهر التجارب التي أجريت على نظامي VLABench وRoboMME أن الاختيار الاستراتيجي لمتى وأين يتم تخصيص الحوسبة يمكن أن يؤثر بشكل كبير على أداء الأنظمة.

في التجارب، تمكنت تقنية DIRECT من تحقيق أداء يتجاوز نموذج أقوى بنسبة تصل إلى 65% في تقليل زمن الاستجابة، مما يبرز كفاءتها في تحقيق تخطيط متقدم في الأنظمة الروبوتية. من خلال هذه النتائج، يتضح أنزيادة القدرات الحاسوبية بشكل عشوائي قد تكون مهدرة، وأن DIRECT توفر طريقة فعالة لتحسين التخطيط المدمج بتكاليف أقل.

للمزيد من المعلومات حول هذا الابتكار المثير، يمكنكم زيارة صفحة المشروع: jadee-dao.github.io/direct/.