تحول ثوري في الذكاء الاصطناعي: نموذج MELT الجديد يوفر ذاكرة منخفضة مع أداء مذهل!

ظهرت بنى LLM (نماذج اللغات الضخمة) المتكررة كحل واعد لتحسين قدرة الآلات على التفكير والتفاعل، حيث تمكن هذه النماذج من إجراء عمليات حسابية متعددة الخطوات في فضاء التضمين دون الحاجة إلى إنتاج رموز وسطية. أحد هذه النماذج هو Ouro الذي يعزز من قدرات التفكير عبر تحديث تمثيلات داخلية بشكل متكرر مع الاحتفاظ بذاكرة Key-Value (KV) ثابتة تزداد استهلاكًا مع عمق التفكير.

لكن، تكمن المشكلة في أن زيادة عدد تكرارات التفكير قد يؤدي إلى استخدام مكثف للذاكرة، مما يحد من قدرة التطبيق العملي لهذه البنى. هنا يأتي دور النموذج الجديد Memory-Efficient Looped Transformer (MELT) الذي يقدم حلاً مبتكرًا عن طريق فصل عمق التفكير عن استهلاك الذاكرة.

بدلاً من الاعتماد على ذاكرة KV قياسية لكل طبقة وتكرار، يحتفظ MELT بذاكرة KV واحدة لكل طبقة تُستخدم عبر حلقات التفكير. يتم تحديث هذه الذاكرة بمرور الوقت من خلال آلية تحكم قابلة للتعلم. لتعزيز التدريب الفعال والمستقر تحت هذه البنية الجديدة، تم اقتراح تدريب MELT باستخدام أسلوب تدريب متدرج في مرحلتين: الانتقال التداخلي يتبعه ترشيح معدّل بناءً على التوجه، وذلك من نموذج LoopLM الأساسي إلى MELT.

بالنظر للنتائج التجريبية، يتفوق نموذج MELT المدرب من معلمات Ouro المسبقة على النماذج القياسية من نفس الحجم، مع الحفاظ على استهلاك ذاكرة مشابه لتلك النماذج وأقل بكثير من Ouro. في المجمل، يحقق MELT تفكيرًا تكراريًا ثابت الذاكرة دون التضحية بأداء LoopLM، مستخدمًا فقط آلية خفيفة بعد التدريب.

بهذه الخطوة الجديدة، يبدو أن الذكاء الاصطناعي يسير نحو آفاق جديدة من الفعالية والكفاءة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.

تحول ثوري في الذكاء الاصطناعي: نموذج MELT الجديد يوفر ذاكرة منخفضة مع أداء مذهل!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

تقنيات تقطير نماذج اللغات الضخمة: ثورة في تدريب الذكاء الاصطناعي!

اكتشفوا قوة ذكاء NVIDIA: رؤية وتحسين أسطول وحدات معالجة الرسوميات في الوقت الحقيقي!

ثلاثة مفاهيم في الذكاء الاصطناعي يجب مراقبتها وفقًا للاقتصادي الحائز على جائزة نوبل