في عالم الذكاء الاصطناعي، يعتبر [توليد النصوص](/tag/[توليد](/tag/توليد)-النصوص) الطويلة من التحديات الكبيرة. تعتمد [التطبيقات](/tag/التطبيقات) الحديثة لنماذج [اللغة](/tag/اللغة) الكبيرة (Large Language [Models](/tag/models)) بشكل متزايد على استخدام بادئات (Prefixes) طويلة للتحكم في [سلوك](/tag/سلوك) النموذج أثناء مرحلة [الاستدلال](/tag/الاستدلال). ورغم فعالية هذه التقنية، إلا أنها تعاني من محدوديتين هيكليتين رئيسيتين: أولاهما تلاشي تأثير البادئة مع تقدم عملية التوليد، وثانيهما زيادة تعقيد حسابات [الانتباه](/tag/الانتباه) ([Attention](/tag/attention)) كلما طالت البادئة.
تقدم الطرق التقليدية إما الحفاظ على [الانتباه](/tag/الانتباه) للبادئة مع ضغطها، أو إدماجها في معلمات النموذج من خلال [التدريب](/tag/التدريب) القائم على التدرج. لكن الطريقة الأولى لا تزال تعتمد على البادئة أثناء الاستدلال، بينما يمكن أن تكون الطريقة الثانية كثيفة في متطلبات [التدريب](/tag/التدريب) وغير مناسبة لتحديث البادئة.
لمعالجة هذه المشكلات، اقترح الباحثون [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تعرف بذاكرة حالة [الانتباه](/tag/الانتباه) ([Attention](/tag/attention)-State Memory). حيث تتيح هذه [التقنية](/tag/التقنية) عدم الحاجة إلى التدريب، من خلال [نقل](/tag/نقل) البادئة إلى [ذاكرة](/tag/ذاكرة) خفيفة تعتمد على [البحث](/tag/البحث) المسبق لحالات [الانتباه](/tag/الانتباه) بين [رموز](/tag/رموز) البادئة والاستعلام (Query [Tokens](/tag/tokens)).
عند اختبار هذه الطريقة باستخدام [نموذج](/tag/نموذج) LLaMA-3.1-8B على [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) ManyICLBench، أظهرت النتائج تحسناً في [الدقة](/tag/الدقة) مقارنةً بتعلم [السياق](/tag/السياق) بميزانيات [ذاكرة](/tag/ذاكرة) تتراوح بين 1K-8K، كما تم تقليل زمن الانتظار في حسابات [الانتباه](/tag/الانتباه) بمعدل 1.36 مرة عند استخدام 8K من الذاكرة، مما يتجاوز [أداء](/tag/أداء) الطرق التقليدية للانتباه الكامل على معيار NBA باستخدام 20% فقط من متطلبات [الذاكرة](/tag/الذاكرة).
يبدو أن هذه التطورات ستفتح آفاقًا جديدة في كيفية [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) وتعزيز كفاءتها، مما يعكس حاجة متزايدة لاستراتيجيات مبتكرة في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).
ذاكرة السياق: ثورة في توليد النصوص الطويلة بكفاءة عالية!
تقدم دراسة جديدة تقنية مبتكرة تعرف باسم ذاكرة حالة الانتباه، والتي تعزز من كفاءة نماذج اللغة في توليد النصوص الطويلة. هذه التقنية تعد بديلاً فعالاً للممارسات التقليدية وتقلل من زمن العمليات بنسبة 1.36 مرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
