في عالم الذكاء الاصطناعي والتعلم المعزز (Reinforcement Learning - RL)، يسعى الباحثون دائمًا لإيجاد طرق لتحسين أداء الوكلاء الرقميين. في هذا السياق، تم تطوير مفهوم جديد يدعى إعادة استخدام المهارات (Skill Reuse)، والذي يعد بتكنولوجيا متطورة في هذا المجال.

قد أظهرت النماذج الكبيرة للغة (Large Language Models) التي تم تدريبها باستخدام التعلم المعزز أنها تعاني في كثير من الأحيان من اختصارات هشة ومحددة للمهام. لذا، يطرح الباحثون فكرة جديدة: ماذا لو كان بإمكان الوكلاء العامين تحسين أدائهم من خلال استغلال النجاحات السابقة التي تم تحقيقها باستخدام أنماط معينة قابلة لإعادة الاستخدام؟

لتحقيق ذلك، تم تقديم طريقة جديدة تُعرف باسم ReuseRL، والتي تعتمد على مبدأ الحد الأدنى لطول الوصف (Minimum Description Length - MDL). تعمل هذه الطريقة على استخراج قاموس مشترك من المهارات من مسارات النجاح السابقة، كما تضيف تكلفة تقسيم لتحفيز الوكلاء على تجنب السلوكيات الخاصة التي لا تحتوي على وصف قابل للاستخدام في مهام مختلفة.

وتظهر الأبحاث أن استخدام ReuseRL يعزز الأداء سواء خلال التدريب أو الاختبار، حيث تمت مقارنة نتائجه مع تقنيات أخرى مثل GRPO وطرق القواعد القوية. فقد تم تحصيل تحسين ملحوظ في النجاح في بيئات مختلفة مثل ALFWorld وTextWorld-Cooking وCountdown-Stepwise، مما يشير إلى أن إعادة استخدام المهارات يمكن أن تكون مفتاحًا للتقدم في مجال التعلم المعزز.