ظهرت بنى LLM (نماذج اللغات الضخمة) المتكررة كحل واعد لتحسين قدرة الآلات على التفكير والتفاعل، حيث تمكن هذه النماذج من إجراء عمليات حسابية متعددة الخطوات في فضاء التضمين دون الحاجة إلى إنتاج رموز وسطية. أحد هذه النماذج هو Ouro الذي يعزز من قدرات التفكير عبر تحديث تمثيلات داخلية بشكل متكرر مع الاحتفاظ بذاكرة Key-Value (KV) ثابتة تزداد استهلاكًا مع عمق التفكير.
لكن، تكمن المشكلة في أن زيادة عدد تكرارات التفكير قد يؤدي إلى استخدام مكثف للذاكرة، مما يحد من قدرة التطبيق العملي لهذه البنى. هنا يأتي دور النموذج الجديد Memory-Efficient Looped Transformer (MELT) الذي يقدم حلاً مبتكرًا عن طريق فصل عمق التفكير عن استهلاك الذاكرة.
بدلاً من الاعتماد على ذاكرة KV قياسية لكل طبقة وتكرار، يحتفظ MELT بذاكرة KV واحدة لكل طبقة تُستخدم عبر حلقات التفكير. يتم تحديث هذه الذاكرة بمرور الوقت من خلال آلية تحكم قابلة للتعلم. لتعزيز التدريب الفعال والمستقر تحت هذه البنية الجديدة، تم اقتراح تدريب MELT باستخدام أسلوب تدريب متدرج في مرحلتين: الانتقال التداخلي يتبعه ترشيح معدّل بناءً على التوجه، وذلك من نموذج LoopLM الأساسي إلى MELT.
بالنظر للنتائج التجريبية، يتفوق نموذج MELT المدرب من معلمات Ouro المسبقة على النماذج القياسية من نفس الحجم، مع الحفاظ على استهلاك ذاكرة مشابه لتلك النماذج وأقل بكثير من Ouro. في المجمل، يحقق MELT تفكيرًا تكراريًا ثابت الذاكرة دون التضحية بأداء LoopLM، مستخدمًا فقط آلية خفيفة بعد التدريب.
بهذه الخطوة الجديدة، يبدو أن الذكاء الاصطناعي يسير نحو آفاق جديدة من الفعالية والكفاءة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
تحول ثوري في الذكاء الاصطناعي: نموذج MELT الجديد يوفر ذاكرة منخفضة مع أداء مذهل!
يسلط البحث الجديد الضوء على نموذج Memory-Efficient Looped Transformer (MELT) الذي ي revolutionizes عمليات التفكير في نماذج الذكاء الاصطناعي، مما يحل مشكلة استهلاك الذاكرة المفرط. هذا الابتكار يعد خطوة هائلة نحو نماذج أكثر كفاءة وفعالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
