في عالم الذكاء الاصطناعي، أصبحت المهارات القابلة لإعادة الاستخدام عنصراً أساسياً لتحسين قدرات الوكلاء. رغم ذلك، تركز معظم مجموعة المهارات المتاحة حالياً على السلوك القابل لإعادة الاستخدام عبر نصوص أو تعليمات قابلة للتنفيذ. لكن بالنسبة للوكلاء البصريين، تُعتبر المعرفة الإجرائية متعددة الوسائط ضرورة لا غنى عنها، حيث تعتمد إعادة الاستخدام على القدرة على التعرف على الحالة ذات الصلة، وتفسير الأدلة المرئية حول التقدم أو الفشل، واتخاذ القرار التالي.

لذا، تم تطوير إطار عمل MMSkills الذي يمثل ويولد ويستخدم الإجراءات متعددة الوسائط القابلة لإعادة الاستخدام لتحسين اتخاذ القرارات البصرية في الوقت الحقيقي. يحتوي كل MMSkill على حزمة مضغوطة مشروطة بالحالة تربط بين إجراء نصي وبطاقات حالة حقيقية وإطارات مفاتيح متعددة الزوايا.

لإنشاء هذه الحزم، تم تطوير مولد "trajectories-to-skill" الذي يحول المسارات العامة غير التقييمية إلى مهارات متعددة الوسائط قابلة لإعادة الاستخدام، من خلال تجميع سير العمل، وتوليد الإجراءات، والتأسيس البصري، وتدقيق المهارات اللازمة.

لاستخدام هذه المهارات، تم تقديم وكيل مهارات متعددة الوسائط محمل بالفروع: حيث يتم فحص بطاقات الحالة والإطارات المفاتيح المختارة في فرع مؤقت، متماشية مع البيئة الحية، ويتم تصفيتها إلى إرشادات منظمة للوكلاء الرئيسيين. أظهرت التجارب التي أجريت على معايير الوكلاء البصريين المتنوعة أن MMSkills تقدم تحسينات ملحوظة، مما يشير إلى أن المعرفة الإجرائية الخارجية متعددة الوسائط تكمل المبادئ الداخلية للنماذج.

هذا الابتكار يفتح آفاقاً جديدة لتطبيقات الذكاء الاصطناعي، مما يوفر بيئة أكثر ذكاءً وتفاعلاً. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.