في عالم الذكاء الاصطناعي، تعد نماذج الرؤية واللغة (VLMs) من أبرز الابتكارات التي أظهرت قدرة فائقة على فهم المفاهيم متعددة الأنماط. لكن، ما زالت هذه النماذج تواجه تحديات كبيرة في اكتساب المهارات المتخصصة التي تتطور باستمرار. لذلك، يتجه الباحثون نحو استراتيجيات جديدة لتعزيز إمكانيات VLMs بدون الحاجة إلى كميات هائلة من البيانات أو موارد حاسوبية ضخمة.

تتجه أنظار المجتمع الأكاديمي مؤخرًا إلى حل مبتكر يُعرف باسم "حقن المهارات بين الأنماط" (Cross-Modal Skill Injection). هذا الأسلوب يسمح بنقل الخبرات التخصصية من نماذج اللغات الكبيرة (LLMs) إلى نماذج الرؤية واللغة (VLMs) بفعالية، مما يتيح فرصًا جديدة لتطوير هذه النماذج. وفي هذا البحث، جرى استكشاف عدة جوانب رئيسية تتعلق بهذه التقنية، بما في ذلك السيناريوهات، والأساليب، والمعاملات الفائقة.

تناول البحث ثلاثة سيناريوهات رئيسية، حيث أظهرت عملية حقن المهارات بين الأنماط أداءً ممتازًا في البيئات التي تتطلب اتباع التعليمات والتفاعل بين اللغات، بينما كانت النتائج غير مرضية في مسائل الاستدلال الرياضي. أما بالنسبة للأساليب، فقد أثبتت الطرق التقليدية مثل TA وDARE تفوقها بشكل مستمر على الطرق البديلة في دمج المهارات. وفي النهاية، تم إجراء تحليل منهجي وكمّي لعوامل الضبط الفائقة التي تعتمد عليها هذه الطرق التقليدية.

بهذه الطريقة، تفتح هذه الأبحاث آفاقًا جديدة لفهم كيفية تحسين أداء نماذج الذكاء الاصطناعي، مما يجعلنا نتساءل: ما هي المهارات الجديدة التي يمكن اكتسابها في المستقبل عن طريق حقن المهارات بين الأنماط؟