في عالم الذكاء الاصطناعي، يعتبر تحسين تقنيات الانتباه واحدًا من أهم التحديات التقنية. فبينما تقوم نماذج Transformers بالتقاط المعلومات بصورة شاملة، إلا أنها تفتقر إلى القدرة على تحديد الأولويات. من جهة أخرى، توفر نماذج الحالة الزمنية (SSMs) قدرة على التعرف على المعلومات الهامة لكنها تعجز عن الوصول إليها بشكل متكرر.
تقدم دراسة جديدة، تم نشرها على منصة arXiv، نظاماً مبتكراً يُعرف باسم SISA (SSM-Informed Softmax Attention) والذي يُعزز قدرة نماذج الانتباه من خلال دمج مصطلح مستخرج من SSM مباشرة داخل معادلة درجات الانتباه. وهذا يعني أن النظام الجديد يُنجز عمليته بالكامل في خطوة واحدة فقط دون الحاجة إلى استخدام حالات متكررة أو نوى مخصصة، مما يُخفف من تعقيد الحسابات السابقة.
وعند إجراء اختبارات على مجموعات بيانات تصل إلى 152 مليون و5 مليارات رمز، تمكّن SISA من الوصول إلى دقة 17.3% في معيار LAMBADA، متفوقًا على نموذج Transformer التقليدي الذي سجل 13.9% ونموذج Mamba-3 والذي حقق 15.5%. ولكن الأهم من ذلك، أن SISA استطاع حل تحديات استرجاع المعلومات بسرعة تصل إلى 7 مرات أسرع من نموذج Transformer.
يعتبر نموذج SISA بديلًا مبتكرًا في تصميم نماذج الانتباه الهجين، حيث يحدد محور تصميم ثالث يسهم في دمج المعلومات على مستوى الدرجات، مما يُفتح آفاق جديدة في عالم الذكاء الاصطناعي. إذا كنت مهتمًا بالتطورات في هذا المجال، تابعوا ما سيأتي! هل تعتقد أن مثل هذه النماذج ستحدث فرقًا حقيقيًا في تطبيقات الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.
انطلق نحو مستقبل الذكاء الاصطناعي: دمج الانتباه الذكي مع أهمية الإشارات!
في خطوة مستقبلية مثيرة، يطرح الباحثون نموذج SISA الذي يدمج بين تقنيات الانتباه العالمية والنموذج الزمني لأهمية الإشارات. هذا الابتكار يعيد تعريف كيفية معالجة نماذج الذكاء الاصطناعي للمعلومات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
