في عصر الذكاء الاصطناعي الحديث، تبرز مشكلة استهلاك الذاكرة كبرى التحديات التي تواجه نماذج اللغة المعتمدة على المحولات، وخاصةً عند تقديم النتائج بشكل سريع وفعال. توفر الدراسة الجديدة، التي تم نشرها على arXiv، حلاً مبتكرًا يقلل من متطلبات ذاكرة التخزين من خلال مشاركة ذاكرة المفاتيح والقيم (Key-Values، أو KVs).

تعتمد معظم الأساليب الحالية على تقليل حجم ذاكرة KVs عن طريق الضغط أو الإخراج على المحور الزمني، لكن الباحثين في هذه الورقة العلمية يشيرون إلى أنه يمكن تحسين الكفاءة من خلال استغلال بُعد العمق (depth) كآلية قوية. على الرغم من أن الدراسات السابقة قد أظهرت أن وجود ذاكرة كاملة لكل طبقة يعد مُفَضَّلًا، إلا أن تنفيذ مشاركة الذاكرة عبر الطبقات لا يزال يمثل تحديًا عمليًا. وغالبًا ما تعاني الأساليب الحالية من انخفاض في الإنتاجية أو زيادة في الوقت اللازم لاستقبال الرمز الأول.

ستقدم هذه الورقة برهانًا على أن إسقاط ذاكرة إحدى الطبقات يمكن أن يُحقق تحسينًا فعّالًا دون فقدان المعلومات. ويقترح الباحثون نهج تدريب بسيط يعرف بالانتباه العشوائي عبر الطبقات، حيث تختار الطبقات بشكل عشوائي أن تتفاعل مع ذاكرتها الخاصة أو مع تلك الخاصة بالطبقات السابقة. هذا الأسلوب العشوائي يساعد النموذج على التكيف مع استراتيجيات مشاركة الذاكرة العمودية، مما يضمن مرونة تتناسب مع القيود المحتملة للأجهزة عند تنفيذ النموذج.

أظهرت التقييمات أن تطبيق هذه الاستراتيجية خلال التدريب المسبق أو أثناء ضبط النموذج يتيح مشاركة الذاكرة عبر الطبقات لمجموعة متنوعة من عائلات النماذج. إضافًة إلى ذلك، بالنسبة للنماذج الأكبر في البيئات ذات القيود البيانية، تشير هذه الطريقة إلى تأثير مشابه للتنظيم، حيث تحافظ غالبًا على الأداء أو تحسنه بينما تقلل بشكل كبير من مساحة الذاكرة المستخدمة للذاكرة.

إذا كنت مهتمًا بتطورات نماذج الذكاء الاصطناعي الحديثة وأثرها على كفاءة التشغيل، فإن هذا البحث يُعد نقطة انطلاق مثيرة للإعجاب. كيف ترى تأثير تقنيات مثل المشاركة العميقة في تحسين الأداء؟ شاركنا برأيك في التعليقات.