في عالم التكنولوجيا الحديثة، تعتبر نماذج الرؤية-اللغة (Vision-Language Models - VLMs) من الأدوات الأساسية التي تساعدنا في تفاعل أفضل مع البيانات البصرية واللغوية. ومع ذلك، تواجه هذه النماذج تحدياً كبيراً يعرف بهلاوس الأجسام، حيث تُنتج محتويات تتعارض مع الواقع البصري بسبب الاعتماد المفرط على الأسس اللغوية.
لتجاوز هذه المشكلة، قدم الباحثون الإطار الجديد المعروف بالتشفير الإيجابي والسلبي (Positive-and-Negative Decoding - PND). يعتمد هذا الإطار على تدخل مباشر في عملية فك الترميز لضمان الدقة البصرية، وذلك من خلال معالجة الانتباه في النماذج.
تعتمد الطريقة على مسارين متوازيين: المسار الإيجابي الذي يعزز الأدلة البصرية البارزة باستخدام انتباه متعدد الطبقات، وهو ما يساعد على إنتاج أوصاف أكثر دقة، مما يعوض عن فقر الانتباه. بينما يركز المسار السلبي على تحديد وتدهور ميزات الجسم الأساسية لخلق معايير قوية من أجل تصحيح النتائج غير المبنية على الواقع.
تؤكد التجارب الشاملة على مجموعة من المقاييس مثل POPE وMME وCHAIR أن PND حقق أداءً متقدماً، حيث سجل تحسناً في الدقة يصل إلى 6.5%. وهذا كله بدون الحاجة إلى إعادة تدريب النموذج، مما يجعل هذه التقنية ذات أهمية واضحة في تطوير أدوات الذكاء الاصطناعي.
من المثير للاهتمام أن هذه الطريقة تتكيف بفاعلية مع مجموعة متنوعة من المعماريات الخاصة بنماذج الرؤية-اللغة مثل LLaVA وInstructBLIP وInternVL وQwen-VL. تُظهر هذه التطورات كيف يمكن لمواجهة التحديات التقنية في الذكاء الاصطناعي الحصول على نتائج مذهلة.
ما رأيكم في هذا الابتكار؟ هل تعتقدون أنه سيكون له تأثير كبير على مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
التقنيات الرائدة لمكافحة هلاوس الصور: هل تعلم كيف يعمل ذلك؟
تمكن الباحثون من تطوير إطار عمل جديد يعرف باسم التشفير الإيجابي والسلبي (PND) لتقليل هلاوس الأجسام في نماذج الرؤية واللغة. هذا الإطار لا يتطلب إعادة تدريب النموذج ويحقق تحسينات ملحوظة في الدقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
