في عالم يتزايد فيه الاعتماد على تقنيات الذكاء الاصطناعي، تبرز الحاجة لتحسين فعالية التعليم المتعدد الأنماط (Multimodal Instruction Tuning). تعتمد هذه الفعالية ليس فقط على حجم مجموعات البيانات، ولكن أيضًا على ما إذا كانت العينات التدريبية تتطلب فعلاً التفكير البصري. ومع ذلك، تحتوي مجموعات البيانات التعليمية الحالية على عدد كبير من العينات البصرية الزائدة، والتي يمكن حلها من خلال النصوص فقط، بالإضافة إلى إشراف غير متوازن متعدد الأنماط الذي يمكن أن يؤثر سلبًا على التعلم.
لذلك، قدم الباحثون نظام VisNec (نظام قياس الحاجة البصرية)، وهو إطار عمل مبتكر يُستخدم لاختيار البيانات بدقة من خلال قياس المساهمة الهامشية للإدخال البصري أثناء تحسين التعليم. يقوم VisNec بمقارنة الخسارة التنبؤية مع وبدون السياق البصري لتحديد ما إذا كانت العينة التدريبية تعتمد على الرؤية بشكل حاسم، أو كانت زائدة، أو غير متوازنة.
للحفاظ على تنوع المهام، يجمع VisNec مع التجميع الدلالي لاختيار العينات ذات الحاجة العالية ضمن كل مجموعة. وقد أثبتت التجارب عبر 10 معايير للتقييم أنه عند التدريب باستخدام 15% فقط من مجموعة بيانات LLaVA-665K المختارة بواسطة VisNec، تم تحقيق 100.2% من أداء بيانات كاملة. وعلى مجموعة بيانات Vision-Flan-186K الأصغر، لم تقلل هذه الاختيارات من حجم البيانات فقط، بل تجاوزت التدريب على البيانات الكاملة بنسبة 15.8%.
تُظهر هذه النتائج أن قياس والاستفادة من الحاجة البصرية توفر حلاً فعالاً لكل من التحسين الفعال والموثوق لتحسين التعليم المتعدد الأنماط. ومن المتوقع أن يتم إطلاق الأكواد والمجموعات المختارة قريبًا عند قبول البحث.
ثورة في التعلم المتعدد الأنماط: اكتشاف الحاجة البصرية لتحسين الأداء!
يعتمد فعالية تحسين التعليم المتعدد الأنماط على ضرورة استخدام المعلومات البصرية. يقدم النظام الجديد VisNec حلاً مبتكرًا لتحسين تدريبات الذكاء الاصطناعي من خلال قياس الحاجة البصرية. هذا النظام يعد بزيادة الفعالية وتقليل حجم البيانات المطلوبة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
