تظل التعقيدات الربعية لتقنية الانتباه الذاتي (Self-Attention) عقبة رئيسية تواجه نماذج اللغة الكبيرة (Large Language Models) عند معالجة السياقات الطويلة جدًا. وللتغلب على هذه المشكلة، تم تقديم محرك بايزي المعرفي (Naive Bayes Cognitive Engine أو NBCE) الذي يعتمد على تقسيم الوثائق وتوجيهها إلى أقل جزء ذي انتروبيا في كل مرحلة من مراحل فك الشيفرة.

تُظهر استراتيجية الاختيار الصارم مشكلة تجزئة دلالية أثناء التفكير بين الأجزاء، حيث تؤدي التغييرات المفاجئة في التوجيه بين الرموز المتجاورة إلى إزعاج السياق الدلالي للنموذج. هنا تبرز مساهمة Soft-NBCE، التي تأتي كإضافة خفيفة تقوم باستبدال الاختيار الصارم للأجزاء بدمج الأجزاء المعتمد على الانتروبيا بشكل ناعم.

يتم تنفيذ ذلك من خلال استخدام تقنية Softmax المعتمدة على درجة حرارة (Temperature-scaled Softmax) على الانتروبيا التنبؤية، مما يمنح أوزانًا مستمرة لجميع الأجزاء ويسمح بالجمع في الفضاء اللوجاريتمي عبر توزيعات الشرط المرتبطة بالأجزاء.

وللتعويض جزئيًا عن افتراض الاستقلال الشرطي الناتج عن تقسيم الأجزاء، تم تقديم تقنية التقطير الثباتي (Consistency Distillation)، التي تعتمد على LoRA لتقييد توزيع النتائج المقسمة نحو معلم كامل السياق عبر قياس KL-divergence.

أظهرت عمليات الاختبار على معايير LongBench متعددة الخطوات، أن Soft-NBCE مع التقطير الثباتي يُحقق تحسينات ملحوظة مقارنة بالأساليب التقليدية لـ NBCE (MuSiQue F1: 0.310 مقابل 0.275 لنموذج NBCE التقليدي؛ HotpotQA F1: 0.479 مقابل 0.427). كما يتم الحفاظ على دقة الاسترجاع (NIAH-32K: 0.909) بحد أقصى من الذاكرة يعادل O(L^2/n).

في الختام، يمثل Soft-NBCE خطوة كبيرة نحو تحسين التجارب التفاعلية لنماذج اللغة الكبيرة، مما يفتح آفاقًا جديدة نحو معالجة المعلومات بكفاءة أكبر. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!