في عالم الذكاء الاصطناعي، تعتبر تعلّم السياقات (In-context learning) حجر الزاوية لنماذج اللغة الضخمة (Large Language Models) الحديثة. وعلى الرغم من ذلك، تعاني معظم الهياكل الحالية من قيود صارمة وسياقات ثابتة، حيث يتم تعيين مؤشرات مكانية (Positional Indices) خطية أو ثابتة، مما يفرض عبئًا كبيرًا على طبقات الانتباه (Attention Layers) في تنظيم بنية المدخلات. هذا التقييد يؤدي إلى تخصيص قدر أقل من الانتباه للمعلومات الأكثر أهمية.
للتغلب على هذه المشكلة، تم اقتراح آلية جديدة تُدعى RePo، والتي تعمل على تخفيف العبء عن طبقات الانتباه من خلال إعادة تموضع السياقات. على عكس الأساليب التقليدية، تستخدم RePo وحدة قابلة للتفريق (Differentiable Module)، $f_\phi$، لتعيين مواضع الرموز (Token Positions) التي تلتقط الاعتماديات السياقية، بدلاً من الاعتماد على ترتيب مسبق التحديد.
من خلال التدريب المستمر على نماذج OLMo-2 1B و 7B، أظهرت الدراسة أن RePo تعزز باستمرار الأداء في المهام المعقدة التي تشمل سياقات مشوشة، بيانات هيكلية، وأطوال سياق أطول، مع الحفاظ على أداء تنافسي في المهام قصيرة السياق.
تظهر التحليلات أن RePo تنجح في تخصيص مزيد من الكتلة الانتباهية (Attention Mass) للمعلومات البعيدة ولكن ذات الصلة، وتعيين المواضع في فضاء كثيف وغير خطي يلتقط الهيكل الجوهري للسياق المدخل. يمكنك الوصول إلى الكود الخاص بتقنية RePo عبر الرابط: https://github.com/SakanaAI/repo.
RePo: ثورة جديدة في نماذج اللغة من خلال إعادة تموضع السياق!
اكتشف تقنية RePo الجديدة التي تعيد تعريف كيفية استيعاب نماذج اللغة للسياقات. تعتمد هذه التقنية على إعادة تموضع سياقات البيانات لتحسين الأداء بشكل ملحوظ في الظروف الصعبة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
