في عالم الذكاء الاصطناعي، تعد نماذج اللغات الضخمة (Large Language Models) أحد أبرز الابتكارات، ولكنها تواجه تحدياً كبيراً يتمثل في "النسيان الكارثي" (catastrophic forgetting) عند إدخال معلومات جديدة عبر عملية ما بعد التدريب. لكن دراسة جديدة تسلط الضوء على إطار العمل المبتكر المعروف باسم SPOT، الذي يُمكن أن يكون الحل لهذه المشكلة.

توضح الأبحاث أن أهمية البيانات التي تستخدم في سياسة معينة تعد جوهرية، إلا أن استخدام قياس الدالة KL لم يكن فعّالاً بما يكفي للتقليل من مشكلة النسيان. لكن ما قام به الباحثون هو تقديم صيغة جديدة تقيّد المكافآت، مما يلعب دورًا حاسمًا في الاحتفاظ بالمعرفة خلال مراحل ما بعد التدريب.

إطار العمل SPOT يقوم على محورين رئيسيين: الأول هو خط أنابيب تصحيح البيانات الذي يستخدم تقنية الـ Oracle لإجراء تصحيحات دقيقة على الأخطاء من خلال تعديلات طفيفة، مما ينتج بيانات تساعد في السياسة المباشرة. والثاني هو هدف الدالة الثنائية للمدى (binary cross-entropy objective) المدعومة بالمكافآت، والتي تعتبر ضرورية لتعزيز عملية التفكير وتقليل النسيان.

تُظهر التجارب أن استخدام 4,000 مجموعة من البيانات الرياضيات المُصَححة أدّى إلى تحسين دقة النموذج Qwen3-8B بمعدل 6.2% عبر المهام المختلفة، مع الحاجة إلى 16 دقيقة فقط من التدريب على معالجات H800 GPUs. وبالإضافة إلى ذلك، يوفر إطار العمل SPOT تحسينًا أفضل للبدء بالمراحل التالية من التعلم المعزز، مما يساهم في تحقيق أداء أعلى بكثير.

إن الإنجازات التي تحققها هذه التقنية قد تفتح آفاقاً جديدة في كيفية استخدام الذكاء الاصطناعي في المستقبل. فما هو رأيكم في هذا التطور؟ شاركونا في التعليقات.