في خضم التطورات الرائعة في مجال الذكاء الاصطناعي، يأتي البحث الجديد الذي يسلط الضوء على القيود الملحوظة لتقنية Rotary Positional Embeddings (RoPE) المستخدمة في نماذج اللغة الطويلة.
تعتبر RoPE تقنية محورية تم استخدامها في نماذج Transformes، ولكن التحليل النظري الذي تم تقديمه مؤخراً يكشف عن واقع مرير: مع زيادة طول السياق، يصبح التركيز الموجه باستخدام RoPE غير قابل للتنبؤ ويفقد خاصيتين مركزيتين تؤثران على فعاليته.
الخاصية الأولى التي يفقدها RoPE هي ميله المحلي (locality bias)، حيث لم يعد لديه تفضيل للمواقع الأقرب بل يمكن أن يتجاهلها لصالح المواقع البعيدة. الأمر الآخر هو فقدان التناسق في أهمية الرموز، مما يعني أن القيمة التي يحصل عليها رمز معين في سياق قد تختلف بشكل جذري في سياق آخر.
هذين العاملين يؤثران على قدرة RoPE على تمييز المواقف والرموز بشكل فعال، مما يقلل احتمالات النجاح إلى مستوى يزيد قليلاً على احتمال التخمين العشوائي. كما أظهرت التجارب أن تغيير مواقع الرموز أو استبدالها برموز أخرى لا يؤثر بالضرورة على قيمة التركيز، مما يعني وجود قيد كبير في قدرة النموذج على التعامل مع التنوع في البيانات.
يعد هذا الاكتشاف دليلاً واضحاً على ضرورة التفكير في آليات جديدة لتشفير المواقع وترتيب الرموز في نماذج Transformers المستقبلية إذا أرادت أن تكون فعالة حقًا في السياقات الطويلة.
تحليل جذري: حدود نماذج RoPE في فهم السياقات الطويلة!
يستعرض البحث الجديد قيود تقنية Rotary Positional Embeddings (RoPE) في نماذج اللغة الطويلة. يتضح أن هذه التقنية تواجه تحديات جسيمة في تمييز المواقف والكلمات في السياقات الطويلة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
