تعتبر [نماذج التعلم](/tag/[نماذج](/tag/نماذج)-[التعلم](/tag/التعلم)) العميق، وبالتحديد [نماذج المحولات](/tag/[نماذج](/tag/نماذج)-[المحولات](/tag/المحولات)) ([Transformers](/tag/transformers))، حجر الزاوية في التطورات الحديثة في [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي). ومع زيادة حجم النموذج عادةً ما يكون ضروريًا لتحسين الأداء، ظهرت [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُعرف بالمحول المغلق بالكامل (Fully Looped [Transformer](/tag/transformer)) لتقديم بديل مبتكر وفعّال. إذ تعتمد هذه [التقنية](/tag/التقنية) على إعادة استخدام كتل [المحولات](/tag/المحولات) نفسها بشكل متكرر، مما يتيح [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) مع الحفاظ على [عدد](/tag/عدد) المعلمات وسعة [السياق](/tag/السياق).
تتميز [تقنية](/tag/تقنية) [المحول](/tag/المحول) المغلق بالكامل بإمكانية ضبط [عدد](/tag/عدد) حلقات التكرار أثناء الاستدلال، مما يوفر آلية طبيعية لموازنة [الأداء](/tag/الأداء) وعبء التحميل وقت الاختبار. ومع ذلك، كانت تواجه هذه [التقنية](/tag/التقنية) تحديًا يتمثل في عدم [الاستقرار](/tag/الاستقرار) أثناء التدريب، خاصة عند زيادة [عدد](/tag/عدد) حلقات التكرار، حيث تعود هذه المشاكل إلى تذبذب [التدرجات](/tag/التدرجات) والانفجار المتبقي.
لتجاوز هذه العقبات، اقترحت [الدراسة](/tag/الدراسة) تعديلات جديدة: أولا، الهيكل المغلق بالكامل (Fully Looped Architecture) الذي يوزع [إشارات](/tag/إشارات) الحلقات بين جميع الطبقات للحد من الانفجار المتبقي؛ وثانيًا، حقن [الانتباه](/tag/الانتباه) ([Attention](/tag/attention) Injection) الذي يعيد استخدام كتلة [الانتباه](/tag/الانتباه) الموجودة للحد من تذبذب [التدرجات](/tag/التدرجات). هذه التعديلات تساعد في [استقرار](/tag/استقرار) [ديناميكيات](/tag/ديناميكيات) التدريب، مما يتيح [تدريب](/tag/تدريب) [المحول](/tag/المحول) المغلق بالكامل بثبات حتى 12 حلقة، في حين أن [النماذج](/tag/النماذج) الأخرى تفشل في هذا [السياق](/tag/السياق).
علاوة على ذلك، حتى في الحالات الأكثر اعتدالًا حيث لا تنهار [المحولات](/tag/المحولات) المغلقة، فإن [المحول](/tag/المحول) المغلق بالكامل يحسن [الأداء](/tag/الأداء) في المهام المختلفة تصل إلى 13.2%. تُظهر [التجارب](/tag/التجارب) أن هذه [التقنية](/tag/التقنية) لا تحسن فقط من [استقرار](/tag/استقرار) التدريب، ولكنها تعزز أيضًا [الأداء](/tag/الأداء) في المهام المنخفضة وتوفر [مرونة](/tag/مرونة) أولية تحت ميزانيات [حساب](/tag/حساب) مختلفة من خلال تغيير [عدد](/tag/عدد) الحلقات في وقت الاختبار.
ما رأيكم في هذه التطورات المثير للذكاء الاصطناعي؟ شاركونا في [التعليقات](/tag/التعليقات).
تحسين الأداء الذكي: الاستقرار المبتكر في التعلم عبر المحولات المغلقة بالكامل
تقدم الدراسة الجديدة مفهوم المحول المغلق بالكامل لتعزيز الأداء في نماذج الذكاء الاصطناعي. هذه التقنية تتغلب على عدم الاستقرار في التدريب، مما يفتح آفاقاً جديدة لتحقيق أداء أفضل وأكثر استقرارًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
