في عالم الذكاء الاصطناعي، حيث تُعتبر السرعة والدقة من العوامل الأكثر أهمية، تظهر تقنية جديدة تُعرف بـ SIFT: Selective-Index For Fast Compute of RAG Prefill by Exploiting Attention Invariance. هذه التقنية تمثل خطوة متقدمة في تحسين تجربة استرجاع المحتوى في نماذج الذكاء الاصطناعي، وتحديداً في نموذج استرجاع المعلومات المُعزز (Retrieval-Augmented Generation - RAG).

تقنية RAG تعتمد على إدراج استعلامات نماذج اللغات الضخمة (Large Language Models - LLM) مع الوثائق ذات الصلة لتحسين جودة الاستجابة. ولكن، بينما تساعد هذه التقنية في تحسين النتائج، إلا أنها تزيد أيضاً من طول الاستعلامات وتؤخر زمن الحصول على الاستجابة الأولى (Time to First Token - TTFT).

المشكلة تكمن في أن استعلامات RAG غالبًا ما تحتوي على خاصية فريدة وهي إعادة استخدام السياق، حيث تتكرر نفس الوثائق عبر مجموعة واسعة من الاستعلامات، مما يؤدي إلى عمليات حسابية مكررة غير ضرورية.

كانت الحلول السابقة تعتمد على حساب الحروف المفاتيح (KV) بشكل غير دوري، ولكنها غالبًا ما كانت بطيئة أكثر من الحساب الكامل على وحدات معالجة الرسومات الحديثة بسبب التأخيرات الناتجة عن نقل البيانات من الأقراص. لكن، مع SIFT، يأتي الحل على شكل استخدام معلومات عن المواقع ذات الدرجات العالية من الانتباه.

تعمل SIFT على معالجة الوثائق خارج نطاق العمليات الفعلية وتستخرج مواقع دقيقة لدرجات الانتباه العالية لكل وثيقة. ويستند النظام على رؤى حول الثبات في الانتباه، مثل:
1. **ثبات الانتباه المحلي (Local-Attention Invariance)**: حيث تبقى مواقع الدرجات العالية ثابتة بغض النظر عن الوثائق الأخرى.
2. **اتساق الانتباه المتقاطع (Cross-Attention Consistency)**: إذ أن الوثائق ذات الانتباه العالي تجذب أيضاً الانتباه من الوثائق التالية.

تتميز SIFT بعدم تخزين بيانات KV، بل تقوم بتخزين مواقع الدرجات العالية في شكل متجهات بت مضغوطة، مما يُخفف من الحاجة إلى عمليات نقل البيانات المكلفة. خلال عملية الاستخلاص، تحسب SIFT الانتباه فقط في المواقع المحددة، مما يُحسن TTFT بمعدل 1.71 مرة مع الحفاظ على دقة مقاربة تبلغ 1%.

مع كل هذه الميزات، يبدو أن SIFT ستُحدث تحولاً رئيسياً في كيفية تعامل الذكاء الاصطناعي مع المعلومات في المستقبل. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.