في عالم الذكاء الاصطناعي، تظل الشبكات العصبية من العناصر الأساسية في العديد من التطبيقات، لكن تحديات التحليل والتأكيد على سلامتها تواجهها عقبات متعددة، أبرزها قيود الذاكرة الناتجة عن وحدات المعالجة الرسومية (GPUs). في بحث جديد، تم استكشاف تقنيتين ثوريتين: التوازي بالوزن (Tensor Parallelism) والتوازي الكامل للبيانات (Fully Sharded Data Parallelism)، والتي تعد بمثابة حل جذري لتلك التحديات.
تقوم تقنية التوازي بالوزن بتقسيم كل من مصفوفات الوزن ومصفوفات الاسترخاء عبر عدة وحدات معالجة رسومية، مما يؤدي إلى تقليل استخدام الذاكرة بشكل يناهز الضعف عند تقدير P=2. وقد أثبتت النتائج على معايير MNIST-FC في VNN-COMP 2022 صحة هذا النهج، رغم أن توتر الحدود قد يتدهور مع زيادة المناطق الموزعة بسبب الاعتماد على استبدال IBP.
أما بالنسبة للتوازي الكامل للبيانات، فإنه يتعامل فقط مع تقسيم مصفوفات الوزن باستخدام عملية AllGather لكل طبقة، مما يحقق حدودًا مماثلة تمامًا للقاعدة الأساسية المستخدمة لوحدات معالجة رسومية واحدة. هذا يقلل من الذاكرة الأساسية بنسبة تتراوح بين 80% و90%، والذاكرة القصوى بنسبة تتراوح بين 34% و39% في الشبكات العصبية الواسعة.
تتوافق تقنية FSDP بشكل سلس مع أساليب التحقق الكاملة، مثل $eta$-CROWN وتقنيات Branch-and-Bound، بالإضافة إلى إدخالها لطبقات الالتفاف. وقد أبلغت التجارب عن نتائج غير قابلة للتحقيق باستخدام نموذج ResNet-large على مجموعة بيانات CIFAR-100 في VNN-COMP 2024 باستخدام FSDP.
تشير النتائج إلى أن عنق الزجاجة يكمن في الكتل ألفا لكل خلية عصبية بدلاً من مصفوفات الوزن، مما يوجه الأبحاث المستقبلية لتحقيق مزيد من الابتكارات في هذا المجال.
تحطيم حدود الذاكرة: تحسين تحقيق الشبكات العصبية باستخدام تقنيات التوازي المتقدم
تقدم تقنيات التوازي الجديدة، مثل التوازي بالوزن والتوازي الكامل للبيانات، حلاً مبتكرًا لتحديات تحقيق الشبكات العصبية. هذه الأساليب تعزز الكفاءة وتقلل من قيود الذاكرة المستخدمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
