في عالم الذكاء الاصطناعي، تعد الفضاءات الحركية الهجينة (Hybrid Action Spaces) تزاوجاً فريداً بين الخيارات المنفصلة (Discrete Choices) والمعلمات المستمرة (Continuous Parameters)، ويظهر هذا بوضوح في مجالات مثل التحكم في الروبوتات (Robot Control) وألعاب الذكاء الاصطناعي (Game AI). ولكن، لا يزال من الصعب جداً نمذجة وتحسين هذه الفضاءات بكفاءة، وذلك بسبب التحديات المرتبطة بمرونة السياسات المحدودة وصعوبة تحقيق الأداء الجيد في إعدادات الأبعاد العالية.

للتغلب على هذه العقبات، تقدم الأبحاث الجديدة إطار عمل مثير يُعرف بسياسات الانتشار الهجينة التعاونية (Cooperative Hybrid Diffusion Policies - CHDP)، حيث يتم معالجة مشكلة الفضاء الحركي الهجين كألعاب تعاونية كاملة. يعتمد هذا الإطار على اثنين من الوكلاء التعاونيين، حيث يستخدم كل وكيل سياسة انتشار مختلفة — واحدة تعتمد على الخيارات المنفصلة والأخرى على المعلمات المستمرة. يتميز هذا التصميم التعاوني بقدرته على نمذجة الاعتماد بين هذه السياسات، ما يمكنهما من التقاط توزيعات معقدة في الفضاءات الحركية المعنية.

كما تم استخدام خطة تحديث متسلسلة للتعامل مع تعارضات التحديث الناشئة عن التحديثات المتزامنة للسياسات في هذا الإعداد التعاوني، مما يعزز من عملية التكيّف المتبادل. ومن أجل تحسين قابلية التوسع عند التعلم في فضاءات حركية مختلطة عالية الأبعاد، تم إنشاء قاموس أكواد (Codebook) يقوم بنقل الفضاء الحركي إلى فضاء منخفض الأبعاد، مما يساعد السياسة المنفصلة على التعلم في مساحة مضغوطة ومنظمة.

وأخيراً، تم تصميم آلية توجيه تستند إلى وظيفة Q (Q-function) لتوافق تجسيدات قاموس الأكواد مع تمثيل السياسة المنفصلة أثناء التدريب.

على الرغم من الطابع التحدي لهذا الإطار، إلا أن سياسات الانتشار الهجينة التعاونية (CHDP) حققت نتائج تفوق الطرق التقليدية، حيث أثبتت كفاءتها بفارق يصل إلى 19.3% في معدلات النجاح في الاختبارات الهجينة الصعبة. مما يفتح آفاق جديدة واعدة في عالم الذكاء الاصطناعي والتعلم المعزز!