في خطوة مبتكرة، كشفت شركة Nous Research النقاب عن تقنية جديدة تُعرف باسم Lighthouse Attention، وهي آلية انتباه هرمية تعتمد على الاختيار، تهدف إلى تحسين سرعة عمليات ما قبل التدريب في نماذج الذكاء الاصطناعي. تعتمد هذه التقنية على استخدام انتباه القياس المعتمد على النقاط المدورة (Scaled Dot-Product Attention) في مرحلة التدريب، بينما يتم إزالته لاحقًا.

على عكس الأساليب السابقة مثل NSA وHISA التي كانت تعتمد فقط على تجميع المفاتيح والقيم (Keys & Values)، تقوم تقنية Lighthouse بتجميع استعلامات (Query) ومفاتيح (Key) وقيم (Value) بشكل متناظر عبر هرم متعدد الدقة، مما يقلل من تعقيد استدعاء الانتباه من O(N·S·d) إلى O(S²·d). هذا التحسن يتيح تشغيل تقنية FlashAttention على تسلسل فرعي مُدمج صغير، ما يؤدي إلى تسريع ملحوظ في الأداء.

تم اختبار هذه التقنية على نموذج Llama-3-style بحجم 530 مليون، مع سياق يصل إلى 98 ألف، حيث حققت تقنية Lighthouse Attention تسريعاً في وقت التنفيذ النهائي يتراوح بين 1.40 و1.69 ضعف مقابل الأساليب التقليدية مع الحفاظ على خسارة التدريب النهائية مساوية أو أقل.

تعد هذه التقنية بفتح آفاق جديدة في عالم الذكاء الاصطناعي، حيث تمثل خطوة كبيرة نحو تحسين الكفاءة وسرعة التعلم الآلي. كيف تتوقع أن تُغير هذه الابتكارات التجارب الحالية في معالجة البيانات؟ شاركونا آرائكم!