في عالم الذكاء الاصطناعي، تمثل خوارزميات Top-k وTop-p أدوات شخصية رئيسية في نماذج اللغات الضخمة (Large Language Models)، لكن تنفيذها بكفاءة لا يزال يشكل تحديًا كبيرًا. تعتمد الأساليب الحالية غالباً على الفرز (Sorting)، مما يتطلب موارد حسابية وذاكرة كبيرة، مما يجعلها غير فعالة خاصةً عند التعامل مع مفردات ضخمة.
هنا تأتي Qrita لتحدث ثورة في هذا المجال! تقدم هذه الخوارزمية الجديدة تنسيقًا مبتكرًا يعتمد على تقنيات القطع (Truncation) والاختيار (Selection) القائمة على المحاور (Pivot-based) لأداء أفضل. يشتمل الحل على تقنيتين رئيسيتين:
1. **التقليص القائم على غاوس (Gaussian-based sigma-truncation)**: يساهم في تقليل مساحة البحث بشكل كبير، مما يعزز من سرعة التنفيذ ويقلل من تقلب النتائج.
2. **البحث الرباعي المحور مع إدارة التكرار (Quaternary pivot search with duplication handling)**: يخفف عدد دورات البحث ويضمن نتائج حتمية أكثر دقة.
بفضل هذه الابتكارات، سجلت Qrita تحسناً ملحوظاً في الأداء، حيث تم تنفيذها باستخدام Triton وتحقيق تحسين في أداء المرور النهائي يصل إلى 1.4 مرة مع تقليل استخدام الذاكرة للنصف، مع ضمان نفس النتائج التي تنتجها الخوارزميات المعتمدة على الفرز.
اليوم، أصبحت Qrita هي العينة الافتراضية لكل من Top-k وTop-p في مسار تنفيذ GPU الخاص بـ vLLM، وهو ما يعد إنجازًا كبيرًا لمطوري نماذج الذكاء الاصطناعي. للاطلاع على تفاصيل التنفيذ، يمكنكم زيارة المستودع الرسمي هنا. ما رأيكم في هذا التطور الكبير؟ شاركونا آراءكم في التعليقات!
اكتشف Qrita: خوارزمية جديدة تحسين أداء نماذج الذكاء الاصطناعي بتقنية مبتكرة!
تمثل Qrita نقلة نوعية في خوارزميات Top-k وTop-p، حيث تقدم أداءً محسنًا وكفاءة أعلى باستخدام تقنيات مبتكرة. تعرف على كيفية تحسين أداء نماذج اللغة باستخدام هذه الخوارزمية الثورية!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
