تصدّرت نماذج رؤية ولغة (Vision-Language Models) في الآونة الأخيرة عناوين الأخبار بفضل أدائها المتعدد النماذج، لكنها لا تزال تعاني من مشكلات تتعلق بخرافات الحقائق، وخاصة في المجالات الدقيقة أو غير الشائعة. من المعروف أن تلك النماذج تفتقر إلى القدرة الفعالة على رفض الاستفسارات التي تتجاوز معرفتها. في هذا السياق، تم اقتراح إطار عمل منهجي يعمل على تعزيز قدرة هذه النماذج على رفض مثل هذه الأسئلة غير المعروفة.
تضمن الإطار البديل الجديد إنشاء مجموعة بيانات خاصة تحت مسمّى “Visual-Idk” (بصري - لا أعلم)، حيث توظف تقنيات تقديم عدة عينات للتمييز بين الحقائق المعروفة وغير المعروفة. بعد ذلك، يتم ضبط النموذج باستخدام أساليب التحسين الموجهة مثل التعديل الخاضع للإشراف يليها تحسين مدرك للتفضيلات (مثل الـ DPO وORPO) لزيادة فعالية تحديد حدود معرفتها.
تشير النتائج المستحصلة من مجموعة بيانات “Visual-Idk” إلى أن هذه الطريقة قد حسنت نسبة الدقة في المعلومات الصحيحة من 57.9% إلى 67.3%. كما ثبتت الفحوصات الداخلية أن النموذج يدرك حقًا حدود معرفته وليس مجرد حفظ أنماط الرفض. علاوة على ذلك، يُظهر هذا الإطار إمكانية التعميم إلى مجالات طبية وإدراكية خارج البيانات المعروفة، مما يوفر مساراً موثوقاً نحو مساعدات بصرية أكثر أماناً.
نحو نماذج رؤية ولغة أكثر صدقاً: تحسين القدرة على رفض الأسئلة المستعصية!
تسعى الأبحاث الحديثة إلى تعزيز دقة نماذج رؤية ولغة (Vision-Language Models) وتجنب الوقوع في خرافات الحقائق. هل يمكن لهذه النماذج أن تتعلم كيفية رفض الأسئلة التي تتجاوز معرفتها؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
