تمثل معالجة السياقات الطويلة أحد أبرز التحديات التي تواجه نماذج اللغة الحديثة. في حين أن نماذج ترانسفورمر (Transformers) التقليدية تعاني من تعقيد رباعي وسوء في تعميم الطول، تظهر معماريات جديدة مثل الانتباه المتناثر الهرمي كحل واعد لهذا التحدي.

تستند الأنظمة الجديدة على مبادئ معمارية أساسية تسهم في تحسين الأداء، رغم أن التفاصيل الدقيقة لكيفية نجاحها لا تزال غير مفهومة بشكل كامل.

هذا العمل يقدم تحليلًا منهجيًا للموديلات الداخلية، ويسلط الضوء على ثلاث مبادئ تصميم حاسمة تُعتبر مفتاح النجاح:
1. **محول القطعة غير الخطي**: يستخدم مُرمزًا خاصًا (CLS token) لإنتاج تمثيلات فعالة تتيح الاسترجاع الدقيق للمعلومات.
2. **مسار متجاوز**: يعمل على دمج المعلومات العالمية المسترجعة بشكل ثابت دون أن تُطغى عليها البيانات المحلية.
3. **اختيار التفاعل الناقص**: يُفرض خلال مرحلة التدريب لخلق فجوة توزيع بين التدريب والاختبار.

عبر دمج هذه المبادئ، تمكنا من تحقيق إنجاز جديد في التعميم الطولي بدون تدريب، حيث تمكنت النماذج المدربة على 4K من توسيع مدى قدرتها إلى 32 مليون توكن في مجموعة بيانات RULER وBABILong.

هذه الاكتشافات توفر مجموعة واضحة من المبادئ التصميمية المبنية على دلائل تجريبية، مما يمهد الطريق لتطوير نماذج لغوية مستقبلية ذات قدرة عالية في التعامل مع السياقات الطويلة.