في عالم الذكاء الاصطناعي، تمثل تقنيات الانتباه تحدياً مهماً، خاصةً في سياقات البيانات طويلة السياق مثل الجيل المدعوم بالاسترجاع (Retrieval-Augmented Generation - RAG). يسلط بحث جديد الضوء على كيفية تحسين تقنية الانتباه الكتلي (Block Attention) وعدد من العناصر الأخرى التي تلعب دوراً حيوياً في معالجة النصوص بشكل أكثر فعالية.

الانتباه الكتلي يعتمد على معالجة الإدخال ككتل منفصلة لا تتفاعل مع بعضها البعض، مما يفتح الأبواب لتحسين استخدام ذاكرة التخزين المؤقت في سياقات طويلة. ومع ذلك، كانت هناك تحديات كبيرة تقف في طريق تطبيق هذه التقنية بشكل أوسع، أبرزها صعوبة تقسيم النصوص إلى كتل ذات معنى، وعدم فعالية طرق التدريب الحالية التي قد تؤدي إلى تدهور الأداء.

للتغلب على هذه التحديات، قام الفريق البحثي بتطوير مجموعة بيانات جديدة تدعى SemanticSeg، تتضمن أكثر من 30,000 حالة عبر 16 فئة، مثل الكتب، الشفرات، النصوص من الويب، والمحادثات، بمدد نصية تتراوح بين 2,000 إلى 32,000 رمز. تم استخدام هذه المجموعة لتدريب نظام تقسيم خفيف الوزن يمكنه تقسيم النصوص بشكل تلقائي إلى كتل تتماشى مع الفهم البشري، مع إمكانية التحكم في درجة التفاصيل.

علاوة على ذلك، اقترح الباحثون إطار عمل جديد يعرف بـ Block Distillation، الذي يعد أكثر كفاءة من طرق تدريب الكتل التقليدية، حيث يعتمد على نموذج معلم (Teacher Model) ذو انتباه كامل لتوجيه نموذج الطلبة الخاص بالانتباه الكتلي. يتضمن هذا الإطار ثلاث مكونات جديدة: رموز كتل الغمر (Block Sink Tokens) لتقليل فقدان المعلومات عند حدود الكتل، وسقوط الكتل (Block Dropout) للاستفادة من إشارات التدريب من جميع الكتل، ووزن فقدان الرموز (Token-Level Loss Weighting) للتركيز على تعلم الرموز الحساسة للانتباه الكتلي.

أظهرت التجارب التي أجريت عبر عدة نماذج ومعايير أن النظام الجديد يتفوق على القواعد الإرشادية والإحصائية، كما يحقق الـ Block Distillation أداء قريباً من الأداء باستخدام الانتباه الكامل، مما يفتح الطريق أمام تطبيقات عملية وقابلة للتوسع للانتباه الكتلي. هل أنتم مستعدون لثورة معالجة النصوص الجديدة؟