تعتبر نماذج التعلم العميق، وبالتحديد نماذج المحولات (Transformers)، حجر الزاوية في التطورات الحديثة في الذكاء الاصطناعي. ومع زيادة حجم النموذج عادةً ما يكون ضروريًا لتحسين الأداء، ظهرت تقنية جديدة تُعرف بالمحول المغلق بالكامل (Fully Looped Transformer) لتقديم بديل مبتكر وفعّال. إذ تعتمد هذه التقنية على إعادة استخدام كتل المحولات نفسها بشكل متكرر، مما يتيح تحسين الأداء مع الحفاظ على عدد المعلمات وسعة السياق.
تتميز تقنية المحول المغلق بالكامل بإمكانية ضبط عدد حلقات التكرار أثناء الاستدلال، مما يوفر آلية طبيعية لموازنة الأداء وعبء التحميل وقت الاختبار. ومع ذلك، كانت تواجه هذه التقنية تحديًا يتمثل في عدم الاستقرار أثناء التدريب، خاصة عند زيادة عدد حلقات التكرار، حيث تعود هذه المشاكل إلى تذبذب التدرجات والانفجار المتبقي.
لتجاوز هذه العقبات، اقترحت الدراسة تعديلات جديدة: أولا، الهيكل المغلق بالكامل (Fully Looped Architecture) الذي يوزع إشارات الحلقات بين جميع الطبقات للحد من الانفجار المتبقي؛ وثانيًا، حقن الانتباه (Attention Injection) الذي يعيد استخدام كتلة الانتباه الموجودة للحد من تذبذب التدرجات. هذه التعديلات تساعد في استقرار ديناميكيات التدريب، مما يتيح تدريب المحول المغلق بالكامل بثبات حتى 12 حلقة، في حين أن النماذج الأخرى تفشل في هذا السياق.
علاوة على ذلك، حتى في الحالات الأكثر اعتدالًا حيث لا تنهار المحولات المغلقة، فإن المحول المغلق بالكامل يحسن الأداء في المهام المختلفة تصل إلى 13.2%. تُظهر التجارب أن هذه التقنية لا تحسن فقط من استقرار التدريب، ولكنها تعزز أيضًا الأداء في المهام المنخفضة وتوفر مرونة أولية تحت ميزانيات حساب مختلفة من خلال تغيير عدد الحلقات في وقت الاختبار.
ما رأيكم في هذه التطورات المثير للذكاء الاصطناعي؟ شاركونا في التعليقات.
تحسين الأداء الذكي: الاستقرار المبتكر في التعلم عبر المحولات المغلقة بالكامل
تقدم الدراسة الجديدة مفهوم المحول المغلق بالكامل لتعزيز الأداء في نماذج الذكاء الاصطناعي. هذه التقنية تتغلب على عدم الاستقرار في التدريب، مما يفتح آفاقاً جديدة لتحقيق أداء أفضل وأكثر استقرارًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
