تُعد جودة بيانات التدريب العنصر الأهم في فعالية نماذج الرؤية اللغوية الكبيرة (Large Vision-Language Models - LVLMs)، حيث تحتاج هذه النماذج إلى توازن دقيق بين الدقة البصرية وقدرة اتباع التعليمات. ومع ذلك، فإنَّ البيانات الحالية تعاني من مشكلات جودة غير متسقة، وتعتمد طرق تصفية البيانات الحالية على تقييمات عامة تفتقر إلى التفاصيل اللازمة لاكتشاف الأخطاء الدلالية الدقيقة مثل المغالطات المنطقية أو الأخطاء الواقعية، مما يشكل عائقًا أساسيًا في تطوير نماذج أكثر موثوقية.
للتعامل مع هذه التحديات، قدمنا ثلاثة مساهمات أساسية. أولاً، قمنا بإنشاء معيار كبير الحجم يضم 300,000 نموذج يعتمد على إدخال عيوب دقيقة ومتنوعة، مما يوفر اختبارًا صعبًا لتدقيق البيانات. ثانياً، قدمنا نموذجًا جديدًا يُدعى "تحليل ثم تقييم" (Decomposition-then-Evaluation) الذي يُجزئ ردود النموذج إلى مكونات معرفية أساسية: الوصف البصري، الاستنتاج الذاتي، والمطالبات الواقعية، مما يمكّن من إجراء تحليل مستهدف لهذه العناصر. ثالثاً، أطلقنا هذا النموذج من خلال نظام إيفيان (Explainable Visual Instruction-tuning Data AuditiNg)، وهو إطار عمل آلي يقوم بتقييم هذه المكونات على المحاور المتعامدة للتوافق بين الصورة والنص (Image-Text Consistency)، الثبات المنطقي (Logical Coherence)، والدقة الواقعية (Factual Accuracy).
تحدّت نتائجنا التجريبية الفهم السائد الذي يركز على حجم البيانات، حيث أظهر النموذج المدرب على مجموعة فرعية صغيرة عالية الجودة التي تم تنسيقها بواسطة إيفيان أداءً متفوقًا باستمرار مقارنة بالنماذج المدربة على مجموعات بيانات أكبر بكثير. كما كشفنا أن تقسيم عمليات التدقيق المعقدة إلى مهام قابلة للتحقق يتيح تحسينًا قويًا، وأن الثبات المنطقي هو العامل الأكثر أهمية في تقييم جودة البيانات.
إيفيان: الانتقال نحو تدقيق بيانات التعليم البصري القابل للتفسير
تقرير جديد يكشف أهمية جودة بيانات التدريب لنماذج الرؤية اللغوية الكبيرة (LVLMs) ويستعرض كيفية معالجة العيوب من خلال إبداع نظام إيفيان. تعرفوا على كيفية تحسين نموذج الذكاء الاصطناعي وتعزيز دقة البيانات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
