في عالم الذكاء الاصطناعي، تعتبر القدرة على معالجة السياقات الطويلة أمرًا حاسمًا لنماذج اللغة الكبيرة (LLMs) لتحقيق المهام المعقدة. بينما تمتد جهود زيادة نافذة السياق إلى 1 مليون وأكثر، تظهر إحدى العقبات الأساسية عندما يتجاوز الطول التسلسلي النطاق المسبق التدريب لترميزات المواقع، مما يؤدي إلى ما يعرف بن exhaustion الموقعي.
للتغلب على هذه العقبة، نقدم تقنية جديدة تُعرف باسم RoPE الدوري (Periodic RoPE). تم تصميم هذه الآلية لتجاوز مشكلات الانتهاء من المواقع، حيث تعمل بالتزامن مع تقنية الانتباه عبر نافذة منزلقة (Sliding Window Attention) لتلتقط الاعتماديات المحلية والمواقع النسبية ضمن كل نافذة. وتكون هذه الطبقة المحلية مدعومة بطبقة انتباه عالمية بلا ترميز موقعي (No Positional Encoding)، مما يتيح تفاعل غير محدود عبر التسلسل بأكمله دون قيود مواقع محددة.
بفضل تجميع هذين النوعين من الطبقات، يستطيع النموذج تفادي الحاجة إلى التوسيع الموقعي للتمكن من التعميم على السياقات الأطول، والذي نظريًا يدعم نافذة سياق لامحدودة. الأرقام التجريبية تشير إلى أن نموذجنا، MiniWin، يتفوق على نموذج MiniMind مع معماريات GPT القياسية فيما يخص كفاءة السياقات الطويلة وثباتها.
يقدم عملنا طريقًا محتملاً نحو نماذج لغة كبيرة بفهم واقعي للسياقات اللامحدودة. لمعرفة المزيد، يمكنك الوصول إلى الكود عبر رابط روبي GitHub.
هل تعتقد أن هذه التقنية ستحدث ثورة في فهم الذكاء الاصطناعي للسياقات؟ شاركونا آراءكم!
ابتكار جديد: RoPE دوري لتمكين نماذج اللغة الكبيرة من معالجة السياقات اللامحدودة!
برزت تقنية RoPE الدوري كحل ثوري يمكّن نماذج اللغة الكبيرة (LLMs) من تجاوز حدود السياقات الطويلة. هذا الابتكار يعد خطوة هامة نحو تحقيق فهم حقيقي للسياقات اللامحدودة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
