في عالم الذكاء الاصطناعي، يُعتبر التعاون بين الإنسان والذكاء الاصطناعي أمرًا أساسيًا لتطوير سياسات فعالة وموثوقة. لكن ماذا عن التحديات التي تواجهها هذه العملية؟ معظم الطرق التقليدية تعتمد على استخدام التعلم المعزز متعدد الوكلاء (Multi-Agent Reinforcement Learning) لتعلم سياسات غامضة، مما يُقلل من إمكانية تفسيرها ويثير مخاوف تتعلق بالسلامة.

في الآونة الأخيرة، تم استخدام نماذج اللغات الضخمة (Large Language Models) في كل خطوة من عملية اتخاذ القرار، مما أدى إلى استجابات بطيئة وتكاليف استدلال مرتفعة. لذلك، ظهرت الحاجة إلى حل مبتكر، وهو شجرة السياسات التعاونية (Co-pi-tree).

تعتبر شجرة السياسات التعاونية طريقة مغلقة تتعلم شجرة سياسات قابلة للتنفيذ تتألف من شجرة توقع سلوك الشريك وشجرة اختيار أفعال الوكيل. تعتمد Co-pi-tree على تقطير تفكير نماذج اللغات الضخمة إلى كود شجرة سياسات. يتم تقييم السياسة من خلال تفاعل الشريك، حيث تحصل الشجرة على ملاحظات وتستخدم اللغة الطبيعية لتلخيص هذه الملاحظات، مما يساعد على تحسين الفروع المتعثرة.

وقد أظهرت التجارب في لعبة Overcooked-AI أن Co-pi-tree حققت زيادة بنسبة 35.4% في متوسط المكافآت مقارنة بالأساسيات، مع تقليل عدد استدعاءات نماذج اللغات الضخمة بنسبة 77.7% وتقليل زمن الاستجابة أثناء الاختبار بنسبة 97.1%!

مما لا شك فيه، إن شجرة السياسات التعاونية هي خطوة نحو تحسين التعاون بين الإنسان والذكاء الاصطناعي. كيف تعتقد أن هذه الابتكارات ستغير المشهد التكنولوجي؟ شاركونا آراءكم في التعليقات!