شهدت مجالات الذكاء الاصطناعي، خصوصاً نماذج الرؤية واللغة (Vision-Language Models)، تقدمًا كبيرًا في الفهم والتحليل عبر المهام متعددة الأنماط. ومع ذلك، يتزايد الطلب على الذكاء الاصطناعي القابل للتشغيل على الأجهزة المحمولة، مثل برمجيات المساعدات الذكية. تسعى العديد من الجهود إلى نقل نماذج الرؤية واللغة إلى أجهزة الحافة (edge devices) لتوسيع نطاق تطبيقاتها، إلا أن هذه المهمة تأتي مع تحديات معقدة.
تُعتبر هيكلة النموذج المبسطة إحدى الطرق الشائعة، ولكن مع انخفاض حجم النموذج، يصبح التوازن بين الأداء والحجم أكثر صعوبة. هنا يأتي دور تقنيات تقطير المعرفة (Knowledge Distillation) التي تساعد النماذج على تحسين قدراتها الشاملة دون زيادة الحجم أو كمية البيانات المطلوبة. ومع ذلك، فإن معظم تقنيات تقطير النماذج الكبيرة الحالية تركز فقط على التطبيقات الخاصة بالنماذج الأحادية (single-modal LLMs) أو تعتمد على تكوين بيئات بيانات جديدة باستخدام المعلمين.
لكن، تقنيتنا الجديدة Align-KD تفتح آفاقًا جديدة من خلال توجيه النموذج الطلابي لتعلم المحاذاة بين الأنماط المختلفة التي تحدث في الطبقات السطحية. كما يساعد المعلم الطلاب على تعلم كيفية إسقاط رموز الرؤية (vision tokens) إلى فضاء النصوص (text embedding space) اعتمادًا على محتوى النص.
من خلال الإرشاد الذي تقدمه Align-KD، استطاع النموذج MobileVLM V2 بحجم 1.7 مليار تحسين استيعاب المعرفة من النموذج المعلم الذي يبلغ حجمه 7 مليار، مما أدى إلى تحقيق تحسين متوسط في النتائج بمقدار 2.0 عبر ستة معايير تحت مجموعتين من التدريب.
لمعرفة المزيد عن هذا الابتكار الرائع، يمكنك زيارة الرابط واكتشاف الكود الخاص بالتقنية.
تقنية Align-KD: تعزيز نماذج الرؤية واللغة المحمولة بذكاء الاصطناعي المتقدم!
تمثل تقنية Align-KD نقلة نوعية في تحسين نماذج الرؤية واللغة، مما يعزز قدرات الذكاء الاصطناعي على الأجهزة المحمولة بشكل كبير. يعكس المشروع الابتكاري كيفية الاستفادة من المعرفة المعقدة بين الأنماط المختلفة لتحسين كفاءة أدا ء النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
