تعتبر معالجة اللغات الطبيعية (Natural Language Processing) واحدة من أكثر المجالات تحديًا في عالم الذكاء الاصطناعي، حيث تستمر محاولات الباحثين لابتكار طرق فعالة للتعامل مع العلاقات طويلة المدى في النصوص. رغم أن معمارية المتحول (Transformer) قد أثبتت فعاليتها بفضل تكنولوجيا الانتباه الذاتي (Self-Attention)، إلا أنها تواجه تحديات في الأداء بسبب الصعوبة الحسابية في التعامل مع تسلسل بيانات طويل، حيث تعاني من زيادة زمن الحساب بشكل تربيعي ($O(N^2)$).

في المقابل، تقدم نماذج الفضاءات الحالة (State Space Models) حلاً بديلاً حيث تعمل بكفاءة خطية ($O(N)$)، إلا أنها تواجه صعوبة في استرجاع المعلومات الدقيقة نتيجة لاحتجاز ذاكرة انتقائية.

لمعالجة هذه القضايا، قدم الباحثون نموذجاً جديداً يسمى extit{Parallel Hybrid Architecture (PHA)}، والذي يجمع بين Gated State Spaces (GSS) وGrouped Query Attention (GQA) وشبكات التغذية الأمامية (Feed-Forward Networks) كفروع مستقلة تعمل بالتوازي. يتم دمج هذه الفروع من خلال آلية مزج قابلة للتعلم، مما يتيح لنموذج PHA أن يتخصص في كل منها: حيث يلتقط GSS السياق العام، بينما يقوم GQA باسترجاع المعلومات الانتقائية، وتساهم شبكات التغذية الأمامية في المعالجة التكميلية.

عند الاختبار على مجموعة بيانات WikiText-103، سجل نموذج PHA تعديلًا في الأداء بلغ 16.51 PPL عند 125 مليون معلمة، متفوقًا بذلك على نموذج Hedgehog الذي سجل 16.70 ونموذج H3-125M الذي سجل 23.70. وعند زيادة عدد المعلمات إلى 180 مليون، حقق النموذج 16.42 PPL، مما يضاهي النتائج المعتمدة على الانتباه الخالص، مع توفير زيادة بنسبة 24% في الإنتاجية وتخفيض يصل إلى 40% في استهلاك الذاكرة في السياقات الطويلة.

وعلى مجموعة بيانات OpenWebText، حقق نموذجنا البالغ 125 مليون معلمة 19.72 PPL، متجاوزًا المتحولات التقليدية التي سجلت 20.60 ونماذج GSS الهجين الذي حقق 19.80. هذه النتائج تثبت أن فصل paradigms نمذجة تسلسلات اللغة إلى متخصصي التوازي يمكّن من تحقيق أدنى مستوى من تعقيد اللغة مع تحسين كبير في الكفاءة.