في عصر تكنولوجيا الذكاء الاصطناعي المتقدم، تشهد نماذج اللغة البصرية (Vision Language Models) تطورًا ملحوظًا، حيث تُظهر قدرة مبهرة في فهم الصور والفيديوهات. ومع ذلك، تزداد التكاليف الحسابية بشكل سريع مع تزايد عدد الرموز البصرية. وهنا يأتي دور التقنيات المبتكرة لتقليل هذه التكاليف.
في ورقة بحثية جديدة، تم تقديم إطار مبتكر لتقليم الرموز، والذي يعتمد على الفهم الثنائي لآلية الانتباه. تم إعادة صياغة الانتباه كطبقة خطية ضمنية، حيث يُعتبر مصفوفة الأوزان هذه مجموعة من المنتجات الخارجية من الرتبة الأولى، والتي يتم توليدها من كل زوج مفتاح-قيمة لرمز معين. وبالتالي، يتلخص تقليم الرموز في اختيار مجموعة مثالية من هذه التحديثات التي تعكس بقدر أفضل مصفوفة الوزن الأصلية.
كما تمتد هذه الفكرة الجديدة إلى انتباه softmax القياسي في نماذج اللغة البصرية، حيث تم تطوير مقياس جديد يقيس حجم المعلومات وتكرارها لكل رمز. ولتكملة هذه العملية، تم تقديم نهج يعتمد على اختيار المجموعة المثلى بكفاءة، وهو أسلوب يُعرف باسم "التقنية التقدمية للمعدل الهامشي الأقصى" (Progressive Chunked Maximal Marginal Relevance).
من خلال التجارب المكثفة، أثبتت هذه الطريقة أنها تحقق توازنًا أفضل بين الأداء والكفاءة، مما يوفر بُعدًا جديدًا لفهم منهجيات التقليم الحالية. مع استمرار تقدم البحث في هذا المجال، تفتح هذه الابتكارات آفاقًا جديدة لتطوير نماذج أكثر فعالية وتكاملًا في المستقبل.
ثورة في نماذج اللغة البصرية: كيفية تحسين الأداء عبر تقنيات التقليم المبتكرة
تسعى هذه الدراسة إلى تحقيق تحسين كبير في نماذج اللغة البصرية من خلال تقنيات جديدة في تقليم الرموز، مما يؤدي إلى تقليص تكلفة العمليات الحسابية بطريقة ذكية. هذه التكنولوجيا تعد بتقديم أداء أفضل مع الحفاظ على الفعالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
