تتميز تقنية LoRA (تعديل منخفض الرتبة) بشعبيتها المتزايدة في تحسين معلمات النماذج بشكل فعال، لكنها تقليديًا تتعامل مع جميع الرموز والرؤوس بتصميم موحد، مما يفتقر إلى استغلال البنية المتنوعة لمدخلات نماذج اللغة البصرية (VLM). هنا يبرز الابتكار الجديد المسمى Image-LoRA.

تضع Image-LoRA استراتيجيتها الحصرية التي تركز على الرموز المرئية، حيث تُطبق تحديثات المستوى الافتراضي فقط على هذه الرموز. ولجعل العملية أكثر كفاءة، تقتصر التكيفات على مسار القيمة لمجموعة مختارة مختصرة من رؤوس الانتباه، والتي يتم اختيارها باستخدام تقدير تأثير عبر خطوة واحدة من بروب خاص بالرموز المرئية فقط.

هذا التصميم الانتقائي الذي يركز على الرموز والرؤوس والقيم يقلل بشكل كبير من المعلمات القابلة للتدريب وعبء التدريب الخاص بالمعدلات، بينما يحافظ في الوقت نفسه على تمرير النص الخالص للنموذج المجمد عند عدم وجود رموز مرئية.

عند الاختبار على معايير توطين الصورة مع نسب متحكم فيها من الرموز النصية والصورية، حققت Image-LoRA أداءً يطابق أو يقترب من أداء LoRA القياسي، بينما أظهرت توازنات ملحوظة في النظم التي تعتمد بشكل كبير على الرموز الصورية.

علاوة على ذلك، تم التحقق من عمومية هذه التقنية على نص VQA و VideoQA، كما تم التأكد من الحفاظ على النص الخالص على GSM8K، حيث أظهرت نتائج على ViLP أن تقديم نقطة اختناق معلوماتية أقوى يمكن أن يؤدي إلى تحسينات مقارنة بتقنية LoRA القياسية.

ستواصل Image-LoRA فتح آفاق جديدة لتطبيقات الذكاء الاصطناعي في معالجة الصور وفهمها، مما يتيح لها تعزيز أداء النماذج بشكل ملحوظ. ما رأيكم في هذا التطور؟ هل تعتقدون أن هذا الابتكار سيغير مفهومنا عن النماذج البصرية؟ شاركونا في التعليقات.