في عالم الذكاء الاصطناعي، تعد النماذج اللغوية متعددة الوسائط (Multimodal Language Models) قوة دافعة جديدة في مجال الرؤية واللغة. تعتمد هذه النماذج بشكل كبير على إدخال تسلسلات طويلة من الرموز البصرية (Visual Tokens) إلى هياكل اللغة، مما يعزز قدرتها على فهم المحتوى بشكل أفضل. لكن، مع زيادة طول هذه التسلسلات، يبرز تساؤل أساسي: كم عدد هذه الرموز البصرية الذي نحتاجه فعلاً؟ وكيف يمكن توزيعها بفعالية ضمن ميزانية محددة؟
تقدم الأبحاث الحالية طرقاً تقليدية للتخلص من الرموز البصرية غير الضرورية، مثل انتباه وحدة فك التشفير (Decoder Attention) أو الطرق المبنية على تشابه الصورة (Visual Similarity). ومع ذلك، نرى أن عملية تقليص الرموز البصرية يجب أن تُفهم بشكل مختلف، كبحث عن الأدلة المُشروطة بالمهام، خاصةً عند تطبيق ضغط كبير على النماذج.
تدخل تقنية F^3A (Frugal Feature Fusing Approach) الجديدة في هذا السياق، حيث تعمل كموصل لتقليص الرموز البصرية قبل أن تتفاعل النماذج اللغوية مع هذه الرموز. تقوم F^3A ببناء إشارات مشروطة على أساس الأسئلة، وتتناسب مع الرموز البصرية من خلال استخدام رؤوس استشعار غير متحركة (Frozen Sparse Sensing Heads). يتم تخصيص ميزانية محددة للرموز البصرية من خلال عمليات محلية دقيقة، تنافس للحفاظ على التغطية، واستعادة المناطق التي تقلل تغطيتها.
أهمية F^3A تكمن في أنها تتطلب عدم تدريب للنموذج، مما يجعلها فعالة ومبتكرة، كما أنها تحافظ على تتابع التعزيز والتشفير الأصلي. إن النتائج المثيرة لاستكشاف عدد الرموز البصرية اللازمة تعزز من قدرة النماذج اللغوية متعددة الوسائط على التعامل بكفاءة مع المعلومات المعقدة.
ما رأيكم في هذا التطور في مجال الذكاء الاصطناعي؟ شاركونا في التعليقات.
كم عدد الرموز البصرية التي تحتاجها النماذج اللغوية متعددة الوسائط؟ اكتشاف تقنية F^3A!
تتناول الأبحاث الحديثة كمية الرموز البصرية اللازمة لتحسين أداء النماذج اللغوية متعددة الوسائط. تقنية F^3A الجديدة تقدم حلاً مبتكرًا لتقليل تكاليف الاستدلال دون الحاجة إلى تدريبات إضافية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
