في عالم الذكاء الاصطناعي، يعد التعلم في السياق (In-Context Learning) تقنية تتيح للنماذج الضخمة (Large Models) التكيف مع المهام من خلال أمثلة قليلة فقط. ومع ذلك، فقد أظهرت الدراسات أن هذه التقنية لا تزال تواجه عقبات عند تطبيقها على نماذج الرؤية واللغة (Vision-Language Models - VLMs).

تشير التحليلات إلى أن هناك فجوة استقرائية أساسية تؤثر على أداء النموذج، حيث يمكن أن تنتج النماذج إجابات صحيحة باستخدام استدلالات خاطئة، مما يجعل من الصعب استخراج قواعد متناسقة عبر العروض المختلفة. ومن المثير للدهشة أن هذه المشكلة تتفاقم بسبب وجود عقبتين بصريتين رئيسيتين:
1. نسبة كبيرة من الرموز البصرية المكررة التي تشتت الانتباه عن الإشارات النصية.
2. توزيع الانتباه غير المتوازن الذي يفضل الصورة الأولية على حساب السياق اللاحق.

للحل، تم إدخال إطار عمل يهيكل التعلم متعدد النماذج كعملية استقرائية واستنباطية مدروسة. هذا الإطار يتضمن:
- وحدة ضغط رموز بصرية تعتمد على التشابه لتصفية التكرارات.
- آلية إعادة توازن الانتباه الديناميكي لضمان توزيع العناية بشكل عادل على جميع الصور.
- نموذج تسلسل الأفكار (Chain-of-Thought) الذي يوجه النموذج لتحليل أمثلة فردية، واستخلاص قاعدة قابلة للتعميم، ومن ثم تطبيقها على الاستفسارات.

علاوة على ذلك، هناك مسار تعلم مساعد يجمع بين التنقيح تحت الإشراف (Supervised Fine-Tuning) والتعلم التعزيزي (Reinforcement Learning) باستخدام مكافآت يمكن التحقق منها لتعزيز الاقتباسات الدقيقة وتصنيف الضوضاء.

أظهرت التقييمات عبر ثمانية معايير تشمل الإدراك البصري، والاستدلال المنطقي، وحل المشكلات العلمية، وكشف السخرية، تحسنًا ملحوظًا ومتسقًا عن معايير التعلم في السياق القياسية للعديد من نماذج VLMs مفتوحة المصدر، مما يبرز إمكانيات تزويد النماذج بقدرات استقرائية حقيقية في إعدادات متعددة النماذج.

هل أنتم متشوقون للابتكارات الجديدة في معالجة البيانات المتعددة؟ شاركونا آرائكم في التعليقات!