في عالم الذكاء الاصطناعي، تعد نماذج الرؤية اللغوية (Vision Language Models) من أحدث التطورات التي تجمع بين معالجة الصور والنصوص. لكن، كيف يمكننا تعزيز أداء هذه النماذج بالتخصيص الشخصي؟ هنا يأتي دور تقنية جديدة تُعرف باسم Gate-and-Merge.
تتناول الدراسة الجديدة مسألة تخصيص النماذج وفقًا لمفاهيم متعددة محددة من قبل المستخدمين والتي يجب التعرف عليها أو وصفها بشكل مشترك أثناء الاختبار. وبدلاً من الاعتماد على تدريب مشترك، تقدم Gate-and-Merge إطارًا بدون تدريب مسبق يُمكّن من تخصيص النماذج بشكل فعال.
تعتمد هذه التقنية على التعلم المستقل لكل مفهوم من خلال استخدام محول LoRA خفيف الوزن، والذي يتم اقترانه برمز المفهوم. يبقى النموذج الأساسي كما هو، مما يُبقي المفاهيم منفصلة. وأثناء عملية الاستدلال، يتم دمج التحديثات الخاصة بالمفهوم مباشرة في مساحة الأوزان، مما يُساهم في تعزيز أداء النظام.
لمحاربة التداخل السلبي والنشاطات غير ذات الصلة، تم استخدام آلية توجيه لتقدير الإشارات النصية والبصرية، واختيار فقط الوحدات التي تُساهم في عملية التنبؤ. يتم دمج التحديثات ذات المعنى والمعايير المتوائمة فقط، مما يساعد في الحفاظ على هوية كل مفهوم.
تشير التحليلات الكمية والنوعية إلى زيادة ملحوظة في الأداء عبر عدة مهام تخصيص، سواء في إعدادات المفهوم الواحد أو الإعدادات التراكمية. توفر Gate-and-Merge آفاقًا جديدة لتعزيز فعالية نماذج الرؤية اللغوية وتخصيصها بطريقة أكثر مرونة وذكاءً!
ثورة في نماذج الرؤية اللغوية: إطلاق تقنية Gate-and-Merge للتميز الشخصي بدون تدريب مشترك!
تقدم تقنية Gate-and-Merge طريقة مبتكرة للتخصيص الشخصي لنماذج الرؤية اللغوية (VLMs) دون الحاجة لتدريب مشترك. هذه التقنية تسهل دمج المفاهيم المختلفة بشكل فعال لضمان أداء قوي وموثوق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
