هل تساءلت يومًا عن كيفية بناء نموذج ذكي يستطيع فهم الرسوم البيانية والمعقدات العلمية بأعلى دقة؟ هنا يأتي دور Vero، المشروع الثوري الذي يسعى لجعل عمليات التفكير البصري في متناول اليد.

تم تصميم Vero ليكون مجموعة من نماذج الرؤية اللغوية (Vision-Language Models) المفتوحة بالكامل، وهدفها يتجاوز المنافسة مع النماذج الحالية مفتوحة الوزن؛ بل تهدف إلى التفوق عليها. بالرغم من أن النماذج السابقة قد أظهرت إمكانيات عالية في التفكير البصري، إلا أن نقص الشفافية في بياناتها وعمليات التعلم المعزز (Reinforcement Learning) جعلت من الصعب تحليلها أو إعادة إنتاج نتائجها.

في هذا الإطار، قدم فريق Vero مجموعة بيانات ضخمة وهي Vero-600K، والتي تحتوي على 600,000 عينة مستمدة من 59 مجموعة بيانات مختلفة. بالإضافة إلى ذلك، تم تصميم مكافآت حسب المهام التي تدعم إجابات متنوعة. وفقًا للاختبارات، يتفوق Vero-600K على مجموعات بيانات التعلم المعزز الحالية في المقارنات المراقبة.

لقد أظهر Vero تحسينات ملحوظة، حيث أكدت النتائج أن النسخ المختلفة من Vero قد حققت زيادات تتراوح بين 2.9 إلى 5.4 نقاط على النسخ الأصلية من النماذج البدائية. وتمكن النموذج المثير للاهتمام Vero-Qwen3I-8B، الذي تم تدريبه باستخدام النموذج التعليمي، من تجاوز نتائج Qwen3-VL-8B-Thinking بفارق 3.8 نقاط في المتوسط، دون الحاجة إلى تحلية إضافية!

تكشف الدراسات الشاملة أن أنواع المهام المختلفة تبرز أنماط تفكير مميزة، وأن النجاح العام يعتمد على التعلم المشترك لهذه الأنماط بدلاً من التعلم المنعزل. جميع البيانات، الشيفرات، والنماذج متاحة بشكل علني للجميع.

إذا كنت مهتمًا بعالم الذكاء الاصطناعي، فما رأيك في هذه التطورات؟ شاركنا رأيك في التعليقات!