تحتل نماذج Transformers البصرية (Vision Transformers - ViTs) موقعًا مركزيًا في عالم الذكاء الاصطناعي، لكنها غالباً ما تحتاج إلى تقليص الحجم لتناسب الأجهزة المحدودة الموارد، مثل الطائرات بدون طيار والمركبات الذكية. لكن تقنيات تقليص النماذج الحالية تتجاهل أن العديد من هذه الأجهزة تتطلب فقط معرفة فئات معينة لتطبيقها. هذا يؤدي إلى الاحتفاظ بمعرفة زائدة تؤثر سلبًا على الأداء.

بعد إجراء أبحاث عميقة، توصلنا إلى أن استبدال مجموعة البيانات المستخدمة للتقييم ببيانات مختصة بفئات محددة ليس كافيًا. ذلك لأن هناك مشكلتين رئيسيتين. أولاً، النماذج الحالية تتجاهل أوزان الفئات الضارة التي تساهم في عدم الاختصاص، وثانيًا، تنوع الفئات المستهدفة والقيود المفروضة على الموارد يتطلب نماذج مخصصة.

من خلال مشروعنا الجديد "NuWa"، قدمنا حلاً فعالاً من حيث التكلفة عن طريق استنباط نماذج ViTs صغيرة من نماذج أساسية، تتميز بمتطلبات فئوية محددة. يعتمد NuWa على تنقية المعرفة الذاتية لإزالة الأوزان الضارة، واستخلاص نماذج ViTs المضغوطة من خلال تحسينات مغلقة.

لا يحتاج هذا العملية إلى إعادة تدريب بعد عملية تقليص النماذج، حيث تتفوق نماذج NuWa على النماذج الأساسية في دقة فئات معينة وتُسرع من عملية استنتاج البيانات. أظهرت التجارب الشاملة أن NuWa تتفوق على أفضل طرق تقليص النماذج الحالية بحوالي 29% في الدقة، كما حققت سرعة تقليص تصل إلى 33.69 ضعف، وخفضت التكلفة بنسبة تصل إلى 99.83%، مع فقدان دقة متوسط لا يتجاوز 0.61%. هذه النتائج تفتح آفاقًا جديدة لتطبيقات الذكاء الاصطناعي في الأجهزة المحدودة المورد.

مع تقدم التكنولوجيا، كيف تتوقعون أن تتطور أدوات وتقنيات الذكاء الاصطناعي في المستقبل؟ شاركونا آرائكم!