ثورة الذكاء الاصطناعي: تسريع نماذج اللغات الكبيرة على الهواتف الذكية!
تستعرض دراسة حديثة إطارًا مبتكرًا لنشر نماذج اللغات الكبيرة على الهواتف الذكية، مما يسهم في تحسين الأداء وتقليل زمن الاستجابة. يعد هذا التطور خطوة مهمة في تعزيز استخدام الذكاء الاصطناعي على منصات الهواتف المحمولة.
تشكل نماذج اللغات الكبيرة (Large Language Models) نقلة نوعية في عالم الذكاء الاصطناعي، لكن نشرها على الهواتف الذكية يعد تحديًا كبيرًا يتضمن العديد من القيود مثل الذاكرة، زمن الاستجابة، ومرونة التنفيذ. في هذا السياق، تم طرح إطار عمل جديد يسهل الاستدلال على جهاز يتميز بكفاءة عالية، خاصة مع الهواتف الذكية من طرازات Samsung Galaxy S24 وS25 المزودة بشريحة Qualcomm SM8650 وSM8750.
يعتمد هذا الإطار على دمج LoRAs المخصصة لاحتياجات معينة كمدخلات في مخطط استدلال مجمد واحد، مما يتيح التبديل الديناميكي بين المهام بدون الحاجة لإعادة تجميع أو استهلاك إضافي للذاكرة. كما تم تقديم آلية تشفير متعددة الجداول (multi-stream decoding) التي تسمح بتوليد استجابات بأشكال أسلوبية مختلفة، مثل الرسمية أو المهذبة أو المرحة، داخل عملية واحدة، مما يقلل من زمن الاستجابة بنسبة تصل إلى 6 مرات.
لزيادة سرعة توليد الرموز، يتم تطبيق تقنية Dynamic Self-Speculative Decoding (DS2D)، وهي استراتيجية قائمة على الأشجار تتوقع الرموز المستقبلية دون الحاجة إلى نموذج مسود، مما يحقق تسريعًا يصل إلى 2.3 مرة في زمن التفكيك. ومن خلال دمج هذا مع تقنيات تقليل الحجم إلى INT4 وتحسينات على مستوى البنية، يحقق النظام تحسينات تتراوح من 4 إلى 6 مرات في الذاكرة وزمن الاستجابة مع الحفاظ على دقة الأداء عبر تسع لغات وثمانية مهام.
تشير هذه النتائج إلى جدوى العمل العملي لنشر نماذج اللغات الكبيرة متعددة الاستخدامات على أجهزة الحافة، مما يعزز من إمكانية الذكاء الاصطناعي التوليدي (Generative AI) في المنصات المحمولة. هل أنتم مستعدون لاستكشاف الابتكارات الجديدة في عالم الذكاء الاصطناعي؟ شاركونا آراءكم وتجاربكم في التعليقات!
يعتمد هذا الإطار على دمج LoRAs المخصصة لاحتياجات معينة كمدخلات في مخطط استدلال مجمد واحد، مما يتيح التبديل الديناميكي بين المهام بدون الحاجة لإعادة تجميع أو استهلاك إضافي للذاكرة. كما تم تقديم آلية تشفير متعددة الجداول (multi-stream decoding) التي تسمح بتوليد استجابات بأشكال أسلوبية مختلفة، مثل الرسمية أو المهذبة أو المرحة، داخل عملية واحدة، مما يقلل من زمن الاستجابة بنسبة تصل إلى 6 مرات.
لزيادة سرعة توليد الرموز، يتم تطبيق تقنية Dynamic Self-Speculative Decoding (DS2D)، وهي استراتيجية قائمة على الأشجار تتوقع الرموز المستقبلية دون الحاجة إلى نموذج مسود، مما يحقق تسريعًا يصل إلى 2.3 مرة في زمن التفكيك. ومن خلال دمج هذا مع تقنيات تقليل الحجم إلى INT4 وتحسينات على مستوى البنية، يحقق النظام تحسينات تتراوح من 4 إلى 6 مرات في الذاكرة وزمن الاستجابة مع الحفاظ على دقة الأداء عبر تسع لغات وثمانية مهام.
تشير هذه النتائج إلى جدوى العمل العملي لنشر نماذج اللغات الكبيرة متعددة الاستخدامات على أجهزة الحافة، مما يعزز من إمكانية الذكاء الاصطناعي التوليدي (Generative AI) في المنصات المحمولة. هل أنتم مستعدون لاستكشاف الابتكارات الجديدة في عالم الذكاء الاصطناعي؟ شاركونا آراءكم وتجاربكم في التعليقات!