في عالم الذكاء الاصطناعي، يمثل التعلم المستمر تحديًا رئيسيًا لا سيما في نماذج اللغة الكبيرة (Large Language Models - LLMs). يتسبب التحدي المعروف بمعضلة البلاستيك-الاستقرار في فقدان المعرفة السابقة عند إضافة قدرات جديدة، مما يؤثر سلبًا على أداء النماذج. ولكن، ما الحل؟
نقدم لكم إطار Mixture of Sparse Experts for Task Agnostic Continual Learning (SETA)، الذي يُعد طفرة في هذا المجال. هذه التقنية تسعى لحل معضلة البلاستيك-الاستقرار من خلال تفكيك المعرفة إلى وحدات خبراء متخصصة لكل مهمة، وفصل المعرفة التي تُعتبر خاصة بكل مهمة عن تلك التي تُعتبر مشتركة بين المهام.
بدلاً من التحديثات التقليدية التي تتنافس فيها المهام للحصول على نفس المعلمات، يعمل نظام SETA على تخصيص الوحدة لمعرفة فريدة لكل مهمة. حيث يتم إنشاء خبراء قبلاء على معرفة معينة عوضًا عن دمج المعرفة بين المهام المختلفة.
هذا الهيكل يتم الحفاظ عليه من خلال تقنيات مرنة للتثبيت وعمليات تنسيق هادفة، مما يحمي المعرفة المشتركة على مستويات المعلمات والتوجيه. ويتيح نظام بوابة موحد استرجاع التركيبة الصحيحة من الخبراء أثناء مرحلة الاستدلال بشكل تلقائي.
لقد أُجريت تجارب موسعة عبر معايير مختلفة، وأثبت نظام SETA تفوقه على الممارسات الحديثة في التعلم المستمر، حيث أظهر قدرة قوية على الاحتفاظ بمعرفة المهام السابقة وتحسين النقل إلى الوراء مع نماذج مثل LLaMA-2 7B وQwen3-4B.
إن هذه التطورات تمثل خطوة هائلة نحو تحسين أداء نماذج الذكاء الاصطناعي وجعلها أكثر فعالية في التعلم المستمر دون فقدان القيمة المعرفية.
ما رأيكم في هذه التطورات؟ شاركونا في التعليقات.
ثورة في التعلم المستمر: نظام SETA لحل معضلة الذاكرة في نماذج اللغة
يقدم نظام Mixture of Sparse Experts for Task Agnostic Continual Learning (SETA) حلاً مبتكرًا لمعضلة التعلم المستمر في نماذج اللغة الكبيرة (LLMs). من خلال فصل المعرفة إلى خبراء متخصصين ومشتركين، يحقق النظام أداءً متفوقًا في الاحتفاظ بالمعرفة القديمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
