تعد نماذج مزيج الخبراء (Mixture-of-Experts - MoE) من أبرز الابتكارات في مجال الذكاء الاصطناعي، حيث يعتقد أنها الأمثل للإنتاج على الأجهزة ذات الموارد المحدودة. هذه النماذج تعمل على تفعيل عدد قليل من الخبراء لكل رمز من الرموز، مما يقلل من تكلفة الحساب لكل رمز، بحيث تُشبه تكلفة العمليات العائمة (FLOPs) تلك النموذج الكثيف الأصغر. لكن هل تستمر هذه المزايا في الأداء العملي؟
في دراسة جديدة، تم فحص نموذج OLMoE-1B-7B (1.3 مليار من 6.9 مليارات) مقارنة بثلاثة نماذج كثيفة في بيئات مختلفة، منها جهاز Apple M2 Pro وNVIDIA Jetson Orin Nano 8 GB. تم قياس الأداء من حيث سرعة المعالجة وكذلك استهلاك الطاقة والذاكرة.
النتائج كانت مثيرة، حيث أظهرت أن المزايا الخاصة بالأداء التي يوفرها نموذج OLMoE لم تتحقق بشكل كامل على اللابتوب (~10% أقل من نموذج Llama-3.2-1B المماثل) ومع تراجع أكبر على الجهاز الحدودي، حيث كان أداءه أقل بنحو 31% وزيادة استهلاك الطاقة بمقدار مرتين ونصف.
عند تحليل نتائج الدراسة، تبين أن إدارة الخبراء تلعب دورًا ضئيلًا، مما يشير إلى أن النماذج تعتمد على متطلبات الذاكرة الكلية، وليس على النشاط الفعلي. وهذا يعني أن نماذج مزيج الخبراء قد لا تحقق المدخرات المتوقعة عندما تكون الأجهزة مقيدة بالطاقة والموارد.
تسلط الدراسة الضوء على أهمية فهم كل نموذج حسب نوع الجهاز المستخدم، مما يعكس تحديات جديدة تتطلب المزيد من البحث والتحليل في هذا المجال المتطور. ستقوم المجموعة البحثية بإصدار بيانات القياسات التفصيلية وأدوات القياس الخاصة لدعم الأبحاث المستقبلية.
هل تساعد نماذج مزيج الخبراء في تحسين الأداء على الأجهزة الاستهلاكية؟ دراسة عملية مثيرة!
توضح الدراسات الأخيرة أن نماذج مزيج الخبراء (Mixture-of-Experts) قد لا تحقق الفوائد المتوقعه على جميع الأجهزة. تكشف النتائج أن التكلفة الحقيقية لاستخدامها تعتمد على نوع الجهاز المستخدم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
