في عصر يعتمد فيه الذكاء الاصطناعي على نماذج اللغة الكبيرة (Large Language Models) لتحقيق إنجازات غير مسبوقة، أثبتت الدراسات أن هذه النماذج تواجه تحديات كبيرة مع زيادة طول السياق. حيث يظهر أن آلية الانتباه (Attention Mechanism) التي تعتمد عليها هذه النماذج تتقلص كفاءتها مع الأطوال الطويلة للسياق.
في محاولة لحل هذه المشكلة، طوّرت دراسة مبتكرة آلية شبيهة بالنوم، حيث يقوم النموذج بتحويل السياق الحديث إلى أوزان سريعة دائمة قبل مسح ذاكرته المؤقتة (Key-Value Cache). خلال فترة "النوم"، ينفذ النموذج عددًا من العمليات المتكررة على السياق المتراكم، مع تحديث الأوزان السريعة باستخدام قاعدة محلية متعلمة ضمن كتل نموذج الحالة (State-Space Model SSM).
هذا النوع من المعالجة يسمح بتحويل بعض العمليات الحسابية إلى فترة النوم، مما يحافظ على سرعة التنبؤ أثناء اليقظة. تم اختبار هذه الآلية في مجموعة متنوعة من المهام، بما في ذلك العمليات الحسابية الرياضية المعقدة، حيث فشلت النماذج التقليدية في تقديم الأداء المطلوب.
ومع زيادة مدة النوم، لوحظ تحسن ملحوظ في أداء النماذج، خاصة في الحالات التي تتطلب تفكيرًا أعمق. هذه التطورات قد تفتح آفاقًا جديدة لتحقيق المزيد من الكفاءات في الذكاء الاصطناعي.
نماذج اللغة بحاجة إلى النوم! كيف يمكن لهذه الآلية تعزيز أدائها؟
تتناول هذه الدراسة الجديدة الحاجة إلى آلية النوم في نماذج اللغة الكبيرة لتحسين أدائها في المهام الطويلة. من خلال آلية تشبه النوم، تستطيع النماذج تعزيز أدائها أثناء عمليات المعالجة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
