تعتبر [نماذج التعلم](/tag/[نماذج](/tag/نماذج)-[التعلم](/tag/التعلم)) العميق، وبالتحديد [نماذج المحولات](/tag/[نماذج](/tag/نماذج)-[المحولات](/tag/المحولات)) ([Transformers](/tag/transformers))، حجر الزاوية في التطورات الحديثة في [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي). ومع زيادة حجم النموذج عادةً ما يكون ضروريًا لتحسين الأداء، ظهرت [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُعرف بالمحول المغلق بالكامل (Fully Looped [Transformer](/tag/transformer)) لتقديم بديل مبتكر وفعّال. إذ تعتمد هذه [التقنية](/tag/التقنية) على إعادة استخدام كتل [المحولات](/tag/المحولات) نفسها بشكل متكرر، مما يتيح [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) مع الحفاظ على [عدد](/tag/عدد) المعلمات وسعة [السياق](/tag/السياق).

تتميز [تقنية](/tag/تقنية) [المحول](/tag/المحول) المغلق بالكامل بإمكانية ضبط [عدد](/tag/عدد) حلقات التكرار أثناء الاستدلال، مما يوفر آلية طبيعية لموازنة [الأداء](/tag/الأداء) وعبء التحميل وقت الاختبار. ومع ذلك، كانت تواجه هذه [التقنية](/tag/التقنية) تحديًا يتمثل في عدم [الاستقرار](/tag/الاستقرار) أثناء التدريب، خاصة عند زيادة [عدد](/tag/عدد) حلقات التكرار، حيث تعود هذه المشاكل إلى تذبذب [التدرجات](/tag/التدرجات) والانفجار المتبقي.

لتجاوز هذه العقبات، اقترحت [الدراسة](/tag/الدراسة) تعديلات جديدة: أولا، الهيكل المغلق بالكامل (Fully Looped Architecture) الذي يوزع [إشارات](/tag/إشارات) الحلقات بين جميع الطبقات للحد من الانفجار المتبقي؛ وثانيًا، حقن [الانتباه](/tag/الانتباه) ([Attention](/tag/attention) Injection) الذي يعيد استخدام كتلة [الانتباه](/tag/الانتباه) الموجودة للحد من تذبذب [التدرجات](/tag/التدرجات). هذه التعديلات تساعد في [استقرار](/tag/استقرار) [ديناميكيات](/tag/ديناميكيات) التدريب، مما يتيح [تدريب](/tag/تدريب) [المحول](/tag/المحول) المغلق بالكامل بثبات حتى 12 حلقة، في حين أن [النماذج](/tag/النماذج) الأخرى تفشل في هذا [السياق](/tag/السياق).

علاوة على ذلك، حتى في الحالات الأكثر اعتدالًا حيث لا تنهار [المحولات](/tag/المحولات) المغلقة، فإن [المحول](/tag/المحول) المغلق بالكامل يحسن [الأداء](/tag/الأداء) في المهام المختلفة تصل إلى 13.2%. تُظهر [التجارب](/tag/التجارب) أن هذه [التقنية](/tag/التقنية) لا تحسن فقط من [استقرار](/tag/استقرار) التدريب، ولكنها تعزز أيضًا [الأداء](/tag/الأداء) في المهام المنخفضة وتوفر [مرونة](/tag/مرونة) أولية تحت ميزانيات [حساب](/tag/حساب) مختلفة من خلال تغيير [عدد](/tag/عدد) الحلقات في وقت الاختبار.

ما رأيكم في هذه التطورات المثير للذكاء الاصطناعي؟ شاركونا في [التعليقات](/tag/التعليقات).