في خطوة مبتكرة تعزز قدرة الذكاء الاصطناعي، أعلنت شركة NVIDIA عن إطلاق Star Elastic، وهو أسلوب ما بعد التدريب يتيح تضمين نماذج تفكير متداخلة بأحجام 30B و 23B و 12B في نقطة تفتيش واحدة. هذا التطور يعني أنه لم يعد هناك حاجة إلى جولات تدريب منفصلة أو تخزين أوزان نماذج لكل متغير، مما يسهل عملية تطوير النماذج.
تم بناء Star Elastic على إطار عمل Nemotron Elastic وتطبيقه على Nemotron Nano v3، حيث تم تدريب النماذج الثلاثة في جولة واحدة تحتوي على 160 مليار توكن، مما أدى إلى تقليل هائل بنسبة 360 مرة مقارنة بالتدريب التقليدي لكل نموذج من الصفر.
لكن الفوائد لا تقتصر على كفاءة التدريب فقط؛ فقد قدم Star Elastic أيضاً نظام التحكم في الميزانية المرنة، والذي يسمح باستخدام نموذج فرعي أصغر خلال مرحلة التفكير، بينما يتم استدعاء النموذج الكامل للإجابة النهائية. هذا الأسلوب الجديد يحقق دقة أعلى بنسبة 16% وزمن استجابة أقل بـ 1.9 مرة مقارنة بأساليب التحكم التقليدية.
كما أن نقاط تفتيش FP8 و NVFP4 المتداخلة تجعل مجموعات النموذج الكاملة متاحة لمزيد من وحدات معالجة الرسومات من فئة RTX. إن هذه التطورات تعد بإمكانيات جديدة مثيرة في مجال الذكاء الاصطناعي، وتفتح آفاقاً واسعة لمستقبل هذا المجال.
إطلاق Star Elastic من NVIDIA: نقطة التفتيش الثورية التي تجمع ثلاثة نماذج تفكير عملاقة!
أطلقت NVIDIA طريقة Star Elastic المبتكرة، التي تضم نماذج تفكير بعد تدريب متعدد الأحجام، مما يعزز كفاءة التدريب وتقليل زمن الاستجابة. التقنية الجديدة تفتح آفاقاً جديدة في استخدام الذكاء الاصطناعي!
المصدر الأصلي:مارك تيك بوست
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
