في عالم الذكاء الاصطناعي، لا تزال [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) [متعددة الوسائط](/tag/متعددة-الوسائط) (Multimodal Large Language [Models](/tag/models) - [MLLMs](/tag/mllms)) تواجه [تحديات](/tag/تحديات) كبيرة في [فهم](/tag/فهم) التفاصيل الدقيقة في [الصور](/tag/الصور). عادةً ما تعتمد الإجابات على أدلة صغيرة ولكن حاسمة تظهر في [الصور](/tag/الصور) الكاملة. وقد أظهرت الدراسات الأخيرة وجود فجوة في الإدراك، حيث تتمكن نفس [النماذج](/tag/النماذج) من الإجابة بدقة أكبر على الأسئلة الدقيقة عندما تُعطى أجزاء مركزة من [الأدلة](/tag/الأدلة) بدلاً من [الصور](/tag/الصور) الكاملة.
لهذا السبب، تم [اقتراح](/tag/اقتراح) [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تحمل اسم [Vision-OPD](/tag/vision-opd) (Vision [On-Policy Distillation](/tag/on-policy-distillation))، وهي إطار [عمل](/tag/عمل) يهدف إلى [تحسين](/tag/تحسين) الفهم البصري من خلال استخدام [نموذج](/tag/نموذج) يُركّز على التفاصيل الإقليمية لنقل هذه [المعرفة](/tag/المعرفة) إلى [نموذج](/tag/نموذج) شامل يستند إلى [الصورة](/tag/الصورة) الكاملة.
هذا النظام يعتمد على [سياسة](/tag/سياسة) تعليمية تركز على [الصور](/tag/الصور) المقطوعة، حيث يتم [تدريب](/tag/تدريب) نموذجين متوازيين: [نموذج](/tag/نموذج) مُعَلِّم يركز على الأجزاء المحددة من [الصورة](/tag/الصورة) ونموذج طلابي يُعالج [الصورة](/tag/الصورة) الكاملة. من خلال تقليل [الفجوة](/tag/الفجوة) بين النتائج المتوقعة لهذين النموذجيْن، يستفيد النموذج الطالب من الفهم الأقوى للإدراك الإقليمي دون الحاجة إلى [نماذج](/tag/نماذج) [تعليم](/tag/تعليم) خارجية أو معززات.
تظهر [التجارب](/tag/التجارب) على مجموعة متنوعة من [المعايير](/tag/المعايير) لفهم البصر الدقيق أن [نماذج](/tag/نماذج) [Vision-OPD](/tag/vision-opd) [تحقق](/tag/تحقق) أداءً تنافسياً ورائعاً مقارنة بنماذج أخرى أكبر سواء كانت مفتوحة المصدر أو مغلقة، مما يجعل ملامح هذا [الابتكار](/tag/الابتكار) تبدو واعدة كأداة مستقبلية في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).
تجاوز الحدود: تقنية Vision-OPD ترفع مستوى الفهم البصري في نماذج الذكاء الاصطناعي متعددة الوسائط!
تكافح نماذج اللغة متعددة الوسائط (MLLMs) مع الفهم البصري الدقيق، لكن تقنية Vision-OPD تقدم حلاً مبتكرًا لمواجهة هذه التحديات. تعرفوا على كيف يُحدث هذا النظام ثورة في دقة التعرف على التفاصيل الدقيقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
