نحو نماذج رؤية ولغة أكثر صدقاً: تحسين القدرة على رفض الأسئلة المستعصية!

تصدّرت نماذج رؤية ولغة (Vision-Language Models) في الآونة الأخيرة عناوين الأخبار بفضل أدائها المتعدد النماذج، لكنها لا تزال تعاني من مشكلات تتعلق بخرافات الحقائق، وخاصة في المجالات الدقيقة أو غير الشائعة. من المعروف أن تلك النماذج تفتقر إلى القدرة الفعالة على رفض الاستفسارات التي تتجاوز معرفتها. في هذا السياق، تم اقتراح إطار عمل منهجي يعمل على تعزيز قدرة هذه النماذج على رفض مثل هذه الأسئلة غير المعروفة.

تضمن الإطار البديل الجديد إنشاء مجموعة بيانات خاصة تحت مسمّى “Visual-Idk” (بصري - لا أعلم)، حيث توظف تقنيات تقديم عدة عينات للتمييز بين الحقائق المعروفة وغير المعروفة. بعد ذلك، يتم ضبط النموذج باستخدام أساليب التحسين الموجهة مثل التعديل الخاضع للإشراف يليها تحسين مدرك للتفضيلات (مثل الـ DPO وORPO) لزيادة فعالية تحديد حدود معرفتها.

تشير النتائج المستحصلة من مجموعة بيانات “Visual-Idk” إلى أن هذه الطريقة قد حسنت نسبة الدقة في المعلومات الصحيحة من 57.9% إلى 67.3%. كما ثبتت الفحوصات الداخلية أن النموذج يدرك حقًا حدود معرفته وليس مجرد حفظ أنماط الرفض. علاوة على ذلك، يُظهر هذا الإطار إمكانية التعميم إلى مجالات طبية وإدراكية خارج البيانات المعروفة، مما يوفر مساراً موثوقاً نحو مساعدات بصرية أكثر أماناً.

نحو نماذج رؤية ولغة أكثر صدقاً: تحسين القدرة على رفض الأسئلة المستعصية!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

هل يحدد OpenAI مستقبل الأمن السيبراني؟ الكشف عن أداة GPT-5.5 Cyber المبتكرة!

إيلون ماسك يكشف السر: كيف قامت xAI بتدريب Grok باستخدام نماذج OpenAI!

استعد لرحلة مستقبلية: مساعد Google Gemini ينطلق في ملايين المركبات!