تشكل تكلفة الطاقة المرتفعة الناتجة عن استخدام نماذج اللغات الضخمة (LLMs) عقبة أمام نشرها بشكل مستدام وقابل للتوسع. يُظهر النظام الحديث قدرتًا على التكيف مع اختلاف سلوك التحميل ولكنه يفشل في استغلال تلك الاختلافات للكفاءة في الطاقة. وهنا يأتي دور فولتاناLLM، النظام الأول الذي يستهدف بوضوح تقليل الفائض الطاقي في تقديم نماذج اللغات الضخمة باستخدام أسلوب جديد. يعتمد فولتاناLLM على فكر تحكمي، مما يسمح بفصل نقطتي التشغيل لكل نموذج وتوجيه الطلبات عبر الحالة النظامية.
استنادًا إلى الأبحاث، تبين أن استدلال نماذج اللغات الضخمة يظهر منحنى طاقة-تردد على شكل U، مما ينشئ "نقاط حلوة" تعتمد على سلوك المرحلة وحمل العمل. يستفيد فولتاناLLM من ذلك من خلال الجمع بين اختيار تردد مستوى المرحلة المحدد، المدفوع بتنبؤ زمني خفيف الوزن، وتوجيه موجه يتجنب عدم الكفاءة الناتجة عن دقة المعمارية.
قمنا بتنفيذ فولتاناLLM باستخدام SGLang وقمنا بتقييمه عبر نماذج متعددة وحالات عمل حقيقية. أظهرت نتائجنا أن فولتاناLLM يقلل من الطاقة الكلية بنسبة تصل إلى 36.3% مقارنة بالأساس الثابت للتردد الأقصى، كل ذلك مع الحفاظ على تحقيق معايير زمنية محددة مسبقًا. تعتبر هذه النتائج دليلاً على إمكانية تقديم نماذج اللغات الضخمة بطريقة مستدامة عبر اختيار ترددات على مستوى المرحلة، بالإضافة إلى توجيه مدرك للمعمارية. لمزيد من التفاصيل، تحقق من الكود المصدري المتاح على GitHub.
فولتاناLLM: الابتكار في تقديم نماذج اللغات الضخمة بتوفير الطاقة وذكاء التحكم!
تقدم VoltanaLLM نهجًا جديدًا لتقليل تكلفة الطاقة في نماذج اللغات الضخمة، مما يتيح نشرًا مستدامًا وفعالًا. تعتمد التقنية على تحليل سلوك الطلبات لتوفير أداء عالٍ مع تقليل هائل في استهلاك الطاقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
