تشهد أبحاث الذكاء الاصطناعي (AI) اليوم نقلة نوعية بفضل تقنية Priming التي تتيح إمكانية دمج نماذج الحالة الهجينة (Hybrid State-Space Models) مع المحولات المدربة مسبقًا (Pre-trained Transformers). تهدف هذه التقنية إلى تصحيح التحديات الحالية في تصميم نماذج مرنة وفعالة من حيث الأداء.
الفكرة الأساسية وراء نماذج الحالة الهجينة تتمثل في الجمع بين الذاكرة الجاذبة (Attention) ونماذج الحالة (State-Space Models)، مما يخلق توازنًا بين الذاكرة الديناميكية التي تقدمها الذاكرة الجاذبة والذاكرة المعالجة المتدنية التي تتيحها نماذج الحالة. وبفضل هذه التقنية، أصبحت عملية فك التشفير أسرع وتستهلك ذاكرة أقل.
مع ذلك، كان من الضروري تدريب هذه النماذج من الصفر في السابق، مما شكل عائقًا أمام استكشاف تصميماتها. لكن Priming يقدم حلاً مبتكراً، حيث يبدأ بإعداد نموذج هجيني من نموذج مدرب مسبقًا، ويقوم بعد ذلك بمواءمة قصيرة الأمد لاستعادة الجودة المطلوبة، باستخدام أقل من 0.5% من ميزانية الرموز المستخدمة في التدريب المسبق.
تكون تقنية Priming غير مرتبطة بنوع المحولات المستخدمة (مثل Qwen، Llama، أو Mistral) أو بفئة النموذج (كثيف أو مزيج من الخبراء)، مما يفتح المجال لمقارنة منضبطة لمختلف أنواع طبقات نماذج الحالة تحت ظروف متساوية.
تمثل الدراسة الأخيرة تطورًا جديدًا حيث تم تقييم أنواع من النماذج مثل Gated KalmaNet (GKA) وGated DeltaNet (GDN) وMamba-2، ليظهر أن تسلسل الأداء (GKA>GDN>Mamba-2) يمكن أن يتنبأ بأداء النموذج في مهام التفكير طويل السياق.
وتمكنت تقنية Priming من دعم نماذج استدلال بحجم 8B و32B، مع سياقات أصلية تصل إلى 128K، مما أدى إلى تحسين نموذج GKA 32B على النموذج المصدر Qwen3-32B بمتوسط 3.8 نقطة استدلال، ومع بقائه ضمن 1% من نموذج Transformer الذي تدرب على نفس البيانات، مما ساهم بالإسراع في نماذج فك التشفير حتى 2.3 مرة.
لتحفيز البحث في الهياكل الهجينة، تم إطلاق حديقة نموذجية (Model Zoo) تضم نماذج هجينة مدربة لتقديم استدلال طويل السياق بالإضافة إلى كود التدريب والتفسير (خوارزميات العمالة المتوازية للتدريب طويل السياق، نوى GKA المحسَّنة، وملحق خدمة vLLM)، ويتم إصدارها تحت ترخيص Apache 2.0.
ثورة في نماذج الذكاء الاصطناعي: تعرف على تقنية Priming والهياكل الهجينة!
تقدم تقنية Priming نقلة نوعية في نماذج الذكاء الاصطناعي من خلال الجمع بين الذاكرة الجاذبة ونماذج الحالة الهجينة، مما يحسن الأداء ويقلل من استهلاك الذاكرة. هذه التقنية تعد بفتح آفاق جديدة في البحث والتطوير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
