في عالم اليوم، أصبحت نماذج اللغات الضخمة (Large Language Models) جزءًا لا يتجزأ من التطبيقات الحديثة، لكن نشرها لا يزال يواجه العديد من التحديات. فإلى جانب تنفيذ النماذج، يجب أن يتجاوز التطبيق في الواقع كفاءة التكلفة، وانخفاض زمن الانتظار، والاستخدام الأمثل للموارد.
المقاربات التقليدية كانت غالباً تفترض إمكانية استضافة نموذج بكامله على جهاز واحد، وهو افتراض غير سليم في العديد من السيناريوهات الواقعية، خصوصًا في بيئات Edge وFog، حيث الموارد المحدودة تشكل عائقاً.
لكن هنا يأتي الابتكار مع E2LLM، إطار عمل مصمم لتمكين نشر نماذج اللغات الضخمة بكفاءة في هذه الإعدادات ذات الموارد المحدودة. وبدلاً من تقسيم نموذج واحد عبر جميع الأجهزة المتاحة، يقوم E2LLM بتكرار النموذج الكامل عبر مجموعات متعددة من الأجهزة (نسخ) ويطبق التوازي بين النماذج ضمن كل نسخة.
كل نسخة تُعطى دورًا متخصصًا، إما PREFILL أو DECODER، بناءً على كفاءتها في التعامل مع الرموز المدخلة والمخرجة. هذه الفكرة الذكية تستفيد من الاختلافات الطبيعية بين هذين المرحلتين من استدلال النموذج.
لتنظيم الأجهزة بشكل فعال، نستخدم خوارزمية جينية لتشكيل مجموعات تعظم من أداء النظام. وداخل كل مجموعة، نطبق البرمجة الديناميكية لتحديد استراتيجية تقسيم مثلى تقلل من الاختناقات في تنفيذ النماذج المتوازية.
أظهرت النتائج التجريبية أن نهجنا يتكيف بشكل قوي مع الأحمال المتغيرة، بما في ذلك السيناريوهات ذات التفاوت الكبير في أطوال الرموز المدخلة والمخرجة. مقارنةً بأسلوب Splitwise التقليدي، خفض E2LLM زمن الانتظار المتوسط بأكثر من 50% في ظل ظروف الطلب العالي.
هذه المزايا تضع E2LLM في صدارة التطورات في هذا المجال، وتفتح آفاق جديدة لنشر نماذج اللغات الضخمة في البيئات ذات الموارد المحدودة. كيف ترى أثر هذه التقنيات على مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
E2LLM: ثورة في نشر نماذج اللغات الضخمة في بيئات الحوسبة المتنوعة!
E2LLM هو إطار عمل مبتكر يسهم في نشر نماذج اللغات الضخمة (LLMs) بكفاءة في بيئات الحوسبة المحدودة. يستخدم نهجًا ذكيًا يضمن تقليل زمن الانتظار لأكثر من 50% تحت شروط الطلب العالي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
