في خضم التطورات الرائعة في مجال الذكاء الاصطناعي، يأتي [البحث](/tag/البحث) الجديد الذي يسلط الضوء على [القيود](/tag/القيود) الملحوظة لتقنية Rotary Positional Embeddings ([RoPE](/tag/rope)) المستخدمة في [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) الطويلة.
تعتبر [RoPE](/tag/rope) [تقنية](/tag/تقنية) محورية تم استخدامها في [نماذج](/tag/نماذج) Transformes، ولكن [التحليل](/tag/التحليل) النظري الذي تم تقديمه مؤخراً يكشف عن واقع مرير: مع زيادة طول السياق، يصبح التركيز الموجه باستخدام [RoPE](/tag/rope) غير قابل للتنبؤ ويفقد خاصيتين مركزيتين تؤثران على فعاليته.
الخاصية الأولى التي يفقدها [RoPE](/tag/rope) هي ميله المحلي (locality bias)، حيث لم يعد لديه تفضيل للمواقع الأقرب بل يمكن أن يتجاهلها لصالح المواقع البعيدة. الأمر الآخر هو فقدان [التناسق](/tag/التناسق) في أهمية الرموز، مما يعني أن القيمة التي يحصل عليها رمز معين في سياق قد تختلف بشكل جذري في سياق آخر.
هذين العاملين يؤثران على قدرة [RoPE](/tag/rope) على تمييز المواقف والرموز بشكل فعال، مما يقلل [احتمالات](/tag/احتمالات) النجاح إلى مستوى يزيد قليلاً على احتمال التخمين العشوائي. كما أظهرت [التجارب](/tag/التجارب) أن تغيير مواقع الرموز أو استبدالها برموز أخرى لا يؤثر بالضرورة على [قيمة](/tag/قيمة) التركيز، مما يعني وجود قيد كبير في قدرة النموذج على التعامل مع [التنوع](/tag/التنوع) في [البيانات](/tag/البيانات).
يعد هذا الاكتشاف دليلاً واضحاً على ضرورة [التفكير](/tag/التفكير) في [آليات](/tag/آليات) جديدة لتشفير المواقع وترتيب الرموز في [نماذج Transformers](/tag/[نماذج](/tag/نماذج)-transformers) المستقبلية إذا أرادت أن تكون فعالة حقًا في [السياقات الطويلة](/tag/السياقات-الطويلة).
تحليل جذري: حدود نماذج RoPE في فهم السياقات الطويلة!
يستعرض البحث الجديد قيود تقنية Rotary Positional Embeddings (RoPE) في نماذج اللغة الطويلة. يتضح أن هذه التقنية تواجه تحديات جسيمة في تمييز المواقف والكلمات في السياقات الطويلة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
