🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

تقنية Ragged Paged Attention: ثورة جديدة في أداء نماذج اللغة على وحدات معالجة التشغيل TPU

تقدم تقنية Ragged Paged Attention (RPA) حلاً مبتكرًا لتحديات نشر نماذج اللغة الضخمة على وحدات معالجة التشغيل TPU، مما يعزز الأداء ويخفض التكاليف. نستعرض في هذا المقال تفاصيل تقنياتها الرائدة وتأثيرها على مستقبل الذكاء الاصطناعي.

تشهد تقنية الذكاء الاصطناعي تنافسًا كبيرًا في استخدام أنظمة جديدة لجعل نشر نماذج اللغة الضخمة (LLMs) أكثر كفاءة وفعالية من حيث التكلفة. في هذا السياق، تبرز تقنية Ragged Paged Attention (RPA) الخاصة بمعالجة وحدات تينسور (TPUs) كحل مبتكر يهدف لتحسين الأداء وتخفيض التكاليف.

تحمل تقنية RPA في طياتها مجموعة من الأساليب الفريدة التي تعالج التحديات المرتبطة بتنفيذ نماذج اللغة على وحدات TPU، في ظل أنظمة تعتمد بشكل تقليدي على معالجة الرسوميات (GPUs). تتمثل التقنيات الرئيسية التي يعتمد عليها RPA في:
1. **التقسيم الدقيق (Fine-grained Tiling)**: يسمح هذا الأسلوب بالتحكم الفعال في الذاكرة غير المتجانسة المستخدمة، ويعزز من أدائها عند المعالجة الديناميكية.
2. **خطة برمجية مخصصة (Custom Software Pipeline)**: تقوم هذه الخطة بدمج تحديثات الذاكرة الرئيسية (KV Cache) مع حساب الانتباه، مما يُسرع من عملية المعالجة.
3. **استراتيجية تجميع واعية للتوزيع (Distribution-aware Compilation)**: تضمن هذه الاستراتيجية إنتاج نوى متخصصة تدعم أنواع مختلفة من الأحمال مثل فك تشفير النصوص وتجهيز البيانات.

عند تقييمها على نموذج Llama 3 بحجم 8 مليار، أظهرت RPA كفاءة تصل إلى 86% في استغلال عرض النطاق الترددي للذاكرة (MBU) و73% في استغلال قدرات النماذج بما فيها العمليات الرياضية (MFU) خلال فترات التجهيز. بفضل دورها كمكون أساسي في التطبيقات مثل vLLM وSGLang، توفر RPA بنية تحتية قوية لدعم عملية الاستدلال باستخدام TPU وتقدم رؤى قيمة لتصميم النوى.

إن هذه الابتكارات تمثل خطوة مهمة نحو تعزيز الأداء وتحقيق مكاسب ملموسة في تكلفة التشغيل في عالم الذكاء الاصطناعي. فما رأيكم في هذه التقنية المثيرة؟ شاركونا آراءكم في التعليقات.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة