في عالم الذكاء الاصطناعي المتقلب، تلعب نماذج الرؤية واللغة الكبرى (Large Vision-Language Models - LVLMs) دوراً محورياً في فهم وتحليل البيانات الحسية. ومع ذلك، لا تزال هذه النماذج تعتمد بشكل كبير على بنية المحولات (Transformer architecture) التي تحتوي على اتصالات متبقية (residual connections) التي قد تضعف قدرتها على الاستفادة من المعلومات بشكل فعّال.
تتطلب علوم البيانات الحديثة دراسة دقيقة لدور الوحدات الداخلية في هذه النماذج لفهم آليات العمل والتوجيه نحو تحسين التصميم المعماري للنماذج. في هذا السياق، تظهر نتائج الأبحاث أن هناك فجوة نظرية في كيفية فهم أساليب الإسناد السابقة، مما يستدعي الحاجة إلى إطار موحد يجمع بين نظرية المعلومات (Information Theory) والهندسة (Geometry) لتقييم طبيعة التحديثات المتبقية.
ما توصلت إليه الدراسة هو فصل وظيفي أساسي: حيث تعمل آلية الانتباه (Attention) كعامل حفظ تحت الفضاء من خلال إعادة التهيئة، بينما تعمل الشبكات العصبية المتغذية (Feedforward Networks - FFNs) كموسع للفضاء، مما يعزز الابتكار الدلالي. بل والأكثر إثارة، أن التجارب أظهرت أن استبدال أوزان الانتباه المتعلمة بقيم محددة مسبقاً مثل الضوضاء الغاوسية (Gaussian noise) قد يؤدي إلى أداء مماثل أو حتى متفوق مقارنة بالنماذج التقليدية.
تقدم هذه النتائج دليلاً على سوء تخصيص وإعادة توزيع خطيرة في الآليات الحالية، مما يوحي بأن نماذج LVLM المتطورة تخفق في استغلال السياق البصري بكفاءة وتجد نفسها "تضيع في الانتباه" بدلاً من تحقيق نتائج فعالة.
كيف تخسر نماذج الرؤية واللغة الكبرى (LVLMs) في دوامة الانتباه؟
تتعمق دراسة جديدة في كيفية تخصيص نماذج الرؤية واللغة الكبرى (LVLMs) لمواكبة البيانات البصرية بطريقة فعالة. النتائج تشير إلى أن الانتباه لا يُستغل كما ينبغي مما يمكن أن يؤثر سلباً على الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
