في عالم الذكاء الاصطناعي، تعتبر الوكالات المبنية على نماذج اللغات الضخمة (Large Language Models) شديدة الأهمية، خاصة في التعامل مع المهام المعقدة والتدفقات المتنوعة. ومع ذلك، غالبًا ما تظل هذه الوكالات مجرد حلول لمشكلات منفصلة، مما يفوت عليها فرصة التعلم من التفاعلات السابقة. ومن هنا، ظهرت الحاجة إلى مهارات قابلة لإعادة الاستخدام مشتقة من التجربة، والتي تعد بمثابة الأساس الطبيعي للتطور الذاتي.

تعتبر مهارات التصفح العالية الجودة عنق الزجاجة الرئيسي في هذه العملية. الأ approaches الحالية غالبًا ما تعتمد على التدوين اليدوي للمهارات أو توجيه العمليات باستخدام heuristics، أو التدريب على العمليات قصيرة المدى. ولكن، لا يزال هناك صعوبة في تعلم سياسات تأطير المهارات المعقدة على المدى الطويل من خلال ردود الفعل غير المباشرة والمتأخرة.

للتغلب على هذه التحديات، نقدم لكم SkillOS، وصفة تدريب معتمدة على التعلم المعزز (Reinforcement Learning) لتعلّم تأطير المهارات في الوكالات الذاتية التطور. يتكون SkillOS من مكونين أساسيين: منفذ وكالة ثابت يسترجع ويطبق المهارات، وقامع مهارات قابل للتدريب يقوم بتحديث مستودع المهارات الخارجي SkillRepo بناءً على التجارب المكتسبة.

لضمان توفير إشارات التعلم لتأطير المهارات، قمنا بتصميم مكافآت مركبة والتدريب على تدفقات المهام المجمعة بناءً على ارتباطات المهام ذات الصلة بالمهارات، حيث يقوم التحديث المبكر لـ SkillRepo بتقييم المهام المرتبطة لاحقًا. عبر مهام متعددة الأدوار ومهام تفكير ذات دور واحد، يتفوق SkillOS باستمرار على الأساليب التقليدية، سواء كانت خالية من الذاكرة أو تعتمد على الذاكرة القوية، من حيث الفعالية والكفاءة.

تظهر المزيد من التحليلات أن القامع المكتسب يدعم استخدام المهارات بشكل أكثر تركيزًا، بينما تتطور المهارات في SkillRepo إلى ملفات Markdown منظمة بشكل غني تُشفّر المهارات العليا مع مرور الوقت.

هل أنتم متحمسون لهذا التطور في عالم الذكاء الاصطناعي؟ دعونا نناقش ذلك في التعليقات!