في عالم الذكاء الاصطناعي، تعد نماذج الرؤية اللغوية (Vision Language Models) من أحدث التطورات التي تجمع بين معالجة الصور والنصوص. لكن، كيف يمكننا تعزيز أداء هذه النماذج بالتخصيص الشخصي؟ هنا يأتي دور تقنية جديدة تُعرف باسم Gate-and-Merge.

تتناول الدراسة الجديدة مسألة تخصيص النماذج وفقًا لمفاهيم متعددة محددة من قبل المستخدمين والتي يجب التعرف عليها أو وصفها بشكل مشترك أثناء الاختبار. وبدلاً من الاعتماد على تدريب مشترك، تقدم Gate-and-Merge إطارًا بدون تدريب مسبق يُمكّن من تخصيص النماذج بشكل فعال.

تعتمد هذه التقنية على التعلم المستقل لكل مفهوم من خلال استخدام محول LoRA خفيف الوزن، والذي يتم اقترانه برمز المفهوم. يبقى النموذج الأساسي كما هو، مما يُبقي المفاهيم منفصلة. وأثناء عملية الاستدلال، يتم دمج التحديثات الخاصة بالمفهوم مباشرة في مساحة الأوزان، مما يُساهم في تعزيز أداء النظام.

لمحاربة التداخل السلبي والنشاطات غير ذات الصلة، تم استخدام آلية توجيه لتقدير الإشارات النصية والبصرية، واختيار فقط الوحدات التي تُساهم في عملية التنبؤ. يتم دمج التحديثات ذات المعنى والمعايير المتوائمة فقط، مما يساعد في الحفاظ على هوية كل مفهوم.

تشير التحليلات الكمية والنوعية إلى زيادة ملحوظة في الأداء عبر عدة مهام تخصيص، سواء في إعدادات المفهوم الواحد أو الإعدادات التراكمية. توفر Gate-and-Merge آفاقًا جديدة لتعزيز فعالية نماذج الرؤية اللغوية وتخصيصها بطريقة أكثر مرونة وذكاءً!