في عالم الذكاء الاصطناعي، تبرز الحاجة إلى نماذج رؤية وتعليم لغة موثوقة تجمع بين التحليل الدقيق والفهم العميق للمحتوى المرئي. هنا تأتي مجموعة بيانات VG-CoT (Visual Grounding Chain-of-Thought) التي تمثل خطوة كبيرة نحو ذلك. تتيح هذه المجموعة للنماذج الذكية ربط كل خطوة من خطوات التفكير بالأدلة البصرية الفعلية، مما يُعزز موثوقية النتائج.
تُعاني مجموعة البيانات الحالية من قيود تتعلق بالتوسع بسبب الحاجة إلى التفسير اليدوي الشامل، فضلًا عن نقص المحاذاة الواضحة بين خطوات التفكير المتعددة والمناطق الخاصة بالصور. لمواجهة هذه التحديات، اعتمد الباحثون على خط أنابيب آلي متكامل من ثلاث مراحل: أولاً، يتم استخراج الأدلة البصرية على مستوى الكائنات والنصوص باستخدام نماذج الكشف المتقدمة والتعرف الضوئي على الحروف (OCR). وبعد ذلك، يتم توليد التفكير المنطقي خطوة بخطوة باستخدام نموذج GPT-4o، وأخيرًا، يتم تحسين هذا الربط من خلال عملية اكتشاف مفتوحة موجهة بالتحليل.
كما تم تقديم معيار جديد لتقييم أداء نماذج رؤية اللغة الكبيرة عبر ثلاثة أبعاد تكميلية: جودة التحليل، دقة الإجابة، وتوافق التفكير مع الإجابة. تجارب مع نماذج مثل LLaVA-1.5 وQwen2-VL أظهرت تحسينًا مستمرًا في معظم المعايير المقيمة، مما يؤكد فعالية VG-CoT في تعزيز التفكير المستند إلى الأدلة مع الحفاظ على تكاليف بناء مجموعة بيانات قابلة للتوسع.
هذا التقدم يمثل نقطة انطلاق جديدة لجميع الباحثين المهتمين بتحسين نماذج رؤية اللغة الكبيرة. سيتم إصدار مجموعة البيانات وشفرة البرمجة للجمهور عند قبولها لتعزيز المزيد من الأبحاث في هذا المجال.
تقدم ثوري في الذكاء الاصطناعي: مجموعة بيانات VG-CoT لتعزيز الثقة في التفكير المرئي!
استعد لثورة في نماذج رؤية اللغة الكبيرة مع مجموعة بيانات VG-CoT الجديدة، التي توفر أسسًا موثوقة من خلال ربط خطوات التفكير بالأدلة البصرية الحقيقية. هذه الابتكارات ستغير طريقة تقييم الثقة في هذه النماذج!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
