في عالم الذكاء الاصطناعي المتسارع، يطرح الباحثون سؤالًا حيويًا: هل يعزز التعلم المعزز (Reinforcement Learning) المهارات الموجودة لدينا، أم أنه قادر بالفعل على تشكيل مهارات جديدة؟ في هذا المقال، نستعرض فهمًا عميقًا لما يُعرف بالتفكير التكميلي، وهو المهارة الأساسية التي تجمع بين المعرفة الداخلية والسياق الخارجي، والتي تمثل خطوة أساسية نحو تحقيق التعلم المستمر وتوليد المعلومات المعززة.

لتفادي تلوث البيانات الناتج عن مرحلة التدريب المسبق، قام الباحثون بإنشاء مجموعة بيانات بصيغ مفهومة من السير الذاتية، وقاموا بتحليل القدرة على دمج هذه المعرفة إلى مهارتين ذريتين:
1. التفكير البرامترى (Parametric Reasoning) - استرجاع الحقائق المرمزة في أوزان النموذج.
2. التفكير السياقي (Contextual Reasoning) - معالجة المعلومات الجديدة في السياق.

توصلت الأبحاث إلى نتيجتين رئيسيتين:
- أولاً، النماذج التي تمت إدارتها مباشرة على المهمة المركبة حققت دقة عالية في الحقائق والطرق المنطقية المعروفة (90%)، لكنها انهارت عندما واجهت حقائق جديدة وطرق منطقية جديدة (18%). يشير هذا إلى أن عملية التعليم المؤطر (Supervised Fine-Tuning) تعتمد على الحفظ الصمّ بدلاً من دمج المهارات الحقيقية.
- ثانيًا، يلعب التعلم المعزز دورًا حيويًا في سد فجوة التعميم، حيث يعمل كمنظِّم للمهارات بدلاً من أن يكون مجرد معزز—لكن تحت شرط صارم: إنه يستطيع تشكيل استراتيجيات مركبة جديدة فقط عندما يكون النموذج الأساسي قد اتقن أولاً المهارات الذرية المستقلة من خلال التعليم المؤطر.

تشير هذه النتائج إلى أن التدريب الذري المنفصل، يليه التعلم المعزز، يمثل مسارًا قابلًا للتوسع نحو التفكير المعقد والجديد.