في عالم الذكاء الاصطناعي المتقدم، حققت نماذج الفيديو متعددة الوسائط (Video Large Multimodal Models) تقدماً ملحوظاً في تحليل المحتوى المرئي، إلا أنها لا تزال تواجه تحديات كبيرة تتمثل في الهلاوس (hallucinations)؛ حيث تكون الاستجابات المولدة غير مدعومة بشكل دقيق بمحتوى الفيديو المدخل.
في هذا السياق، يبرز الإطار الجديد MultiToP، الذي يمثل ابتكاراً متقدماً في معالجة هذه المشكلة. يعتمد MultiToP على مفهوم رائد يتمثل في تصحيح الرموز البصرية غير الدقيقة قبل البدء في عملية توليد اللغة. من خلال تقديم أداة خفيفة لترميم الرموز البصرية (Visual Token Patcher)، يستطيع MultiToP التنبؤ بتوزيعات استبدال الرموز على مستوى كل رمز، واستبدال الرموز غير الموثوقة برمز عام ديناميكي.
لتدريب هذه الأداة بشكل فعال، تم اقتراح تقنية جديدة تعرف بالتدخل الموجه بالمعلومات (information-guided rank calibration)، والتي تستخدم معلومات إطارية مستندة إلى الإجابة لتوجيه عملية استبدال الرموز، مما يعزز من موثوقية التحليل البصري.
علاوة على ذلك، يجمع MultiToP بين إشراف الإجابة الحقيقية والتنظيم النحيف (sparity regularization)، مما يسمح بتحسين الأدلة البصرية المحلية دون الحاجة لتغيير النموذج الأصلي. أثبتت التجارب الواسعة أن MultiToP يساعد بشكل فعّال في تقليل الهلاوس على نموذج Vript-HAL، مع الحد الأدنى من تكلفة الاستدلال، حيث زادت درجات F1 لنموذج Qwen3-VL-4B-Instruct بنسبة تصل إلى 50.60% مقارنةً بالنموذج التقليدي. كما احتفظ MultiToP بقدرة الفهم العامة للفيديو، حيث حقق زيادة نسبتها 18.58% في الدقة على ActivityNet-QA لنموذج Video-LLaVA-7B.
كل هذه التحسينات تجعل MultiToP خطوة كبيرة نحو تحسين فهم الذكاء الاصطناعي للمحتوى المرئي، مما يعزز من قدراته في تطبيقات متعددة.
تكنولوجيا ثورية: MultiToP لتقليل الهلاوس في نماذج الفيديو متعددة الوسائط
تمكّن الإطار الجديد MultiToP من تقليل الهلاوس في نماذج الفيديو متعددة الوسائط، مما يعزز من دقة الفهم البصري بشكل كبير. يقدم هذا الابتكار حلاً ذكياً لتحسين جودة الاستجابة اللغوية في التحليل المرئي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
