في عالم الذكاء الاصطناعي، تتزايد أهمية نماذج اللغات المتعددة (Multimodal Large Language Models) في معالجة سلاسل الرموز البصرية الطويلة، مما يؤدي إلى زيادة استهلاك الطاقة والوقت في عمليات الاستنتاج. وعلى الرغم من الجهود السابقة لتسريع هذه العمليات، إلا أن الطرق المستخدمة غالباً ما تعتمد على إزالة الرموز البصرية أو تخطي التحديثات الخاصة بها، وهو ما قد يؤدي إلى فقدان معلومات دقيقة ومهمة.
في دراسة حديثة نُشرت على منصة arXiv، تم تناول وتفكيك هذه المشكلة بطريقة مبتكرة تنطلق من منظور إجابات ونتائج النماذج. فالملاحظات تُظهر أن التحديثات المتأخرة للرموز البصرية قد تحتفظ بضخامة مع تأثير محدود على تمثيلات الرموز اللفظية. بناءً على هذا، تم اقتراح إطار عمل جديد يعتمد على تخطي العمليات البصرية عند مستوى المشغل (Operator-Level Visual-Token Skipping).
يقوم هذا الإطار بتفكيك كل طبقة من النموذج إلى مشغلات الانتباه ومشغلات الشبكات العصبية، مما يسمح بتجاوز عمليات الانتبه أو الشبكات غير الضرورية مع الحفاظ على التسلسل الكامل للرموز البصرية. لقد أظهرت التجارب التي أُجريت عبر ثلاث معماريات مختلفة ونماذج فحص الأسئلة والتوجيه (VQA) تحقيق هذا النهج لنتائج فعالة للغاية، حيث تم تخفيض استهلاك الطاقة إلى 33.7% مع الاحتفاظ بأداء النموذج التقليدي بنسبة 99.5%.
إن هذه الدراسة تمثل خطوة هامة نحو تحسين كفاءة النماذج الذكية وتقديم أداء أفضل بشكل عام. هل أنتم مستعدون لمتابعة هذه التطورات؟
استراتيجية جديدة ثورية: تخطي العمليات البصرية لتحسين أداء نماذج اللغات المتعددة!
تقدم دراسة جديدة نهجاً مبتكراً لتسريع نماذج اللغات المتعددة عبر تخطي العمليات البصرية غير الضرورية، مما يحسن الكفاءة بشكل كبير دون التأثير على دقة النتائج. هذه الخطوة تمثل ثورة حقيقية في عالم الذكاء الاصطناعي!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
