في ظل التطورات السريعة في مجال الذكاء الاصطناعي، يبقى تحقيق تكيف فعّال لنماذج الرؤية واللغة (Vision-Language Models) في سياقات ذات العينة القليلة (Few-Shot Adaptation) تحديًا محوريًا. مع أن الأساليب التقليدية تعمل على تقليل الضوضاء الصادرة من الفئات السلبية بطريقة موحدة، فإنها غالبًا ما تتجاهل أن هذه الضوضاء يمكن أن تكون مرتبطة بسياقات محددة ترتبط باختلافات الدعم المتاحة.
هنا يأتي دور الإطار الجديد SCAN (Selective Confusion-Aware Negatives) الذي يسعى لتجاوز هذه العقبات من خلال ثلاثة مساهمات رئيسية. أولاً، يعتمد SCAN على توجيه سلبي متوافق مع استفسارات معينة، مما يتيح له تقييد قوة التخفيف على أعلى K من الفئات الأكثر ارتباكًا بالنسبة لكل استفسار، دون الحاجة إلى أي معلمات إضافية.
ثانيًا، يتم استبدال القوالب النصية الضبابية بقوالب توجيه توضيحية مدعومة من نماذج اللغات الكبيرة (LLMs)، والتي تصف الخصائص المميزة بين أزواج الفئات المتشابهة، مما يُحسن من حدود القرار النصي حيث تكون الحاجة ملحة. وأخيرًا، يعتمد SCAN على وزن اندماج توائمي تقديري يسهل التعامل معه دون الحاجة إلى ضبط يدوي، مما يرفع من كفاءة التفاعل بين الرؤية واللغة.
أظهرت التجارب على 11 مجموعة معيارية أن SCAN يتفوق على الأساليب السابقة بشكل ملحوظ، حيث حقق متوسط زيادة بنسبة 4.61% في نتائج اختبارات التعلم القليل، وتحقيق زيادة تصل إلى 7.70% في مجموعات البيانات ذات التفاصيل الدقيقة حيث يكون الارتباك بين الفئات في أشد صوره. بالإضافة إلى ذلك، يظهر SCAN قدرة رائعة على التعميم تحت تبديل التوزيع، حيث حقق تحسنًا يبلغ 2.95% في المتوسط عبر أربع متغيرات خارج المجموعة من ImageNet، وحافظ على أداء قوي حتى في ظل وجود ضوضاء شديدة في التصنيفات، حيث تجاوزت الدقة 50% تحت تآكل التصنيفات، متفوقةً على أقوى الطرق المنافسة.
إجمالاً، يمثل SCAN قفزة نوعية في اتجاه تعزيز دقة وكفاءة نماذج الرؤية واللغة، مما يجعله نقطة انطلاق مثيرة لمزيد من الاكتشافات والتطبيقات المستقبلية.
تعزيز أداء نماذج الرؤية واللغة: كيف تحقق SCAN تقدماً استثنائياً؟
يقدم البحث الجديد إطار SCAN الذي يزيد من فعالية نماذج الرؤية واللغة من خلال تحسين التعامل مع الإشارات السلبية. هذا التقدم يظهر نتائج مثيرة عبر عدة اختبارات معيارية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
