في عهدٍ يتزايد فيه الطلب على التعلم متعدد النماذج (Multi-modal Learning)، تبرز البيانات المرئية-الجدولية (Visual-Tabular Data) كنقطة تركيز حاسمة، خصوصًا في المجالات ذات الأهمية الكبرى مثل الرعاية الصحية والصناعة. ومع ذلك، لا يزال هذا المجال غير مُستكشف بشكل كافٍ. لتحفيز البحث والتطوير، أُطلق extit{VT-Bench}، المعيار الموحد الذي يُعْتَبَر الأول من نوعه في تقييم المهام التمييزية والتفكير التوليدي في البيانات المرئية والجدولية.
يجمع VT-Bench بين 14 مجموعة بيانات موزعة عبر 9 مجالات مختلفة، تشمل البيانات الطبية، الحيوانات الأليفة، وسائل الإعلام، والنقل، مع توفر أكثر من 756.000 عينة. هذا التنوع يفتح المجال أمام استكشافات جديدة وطرق مبتكرة. لقد أجرينا تقييمًا لـ 23 نموذجًا بارزًا، بما في ذلك نماذج أحادية النمط (Unimodal Experts) ونماذج متخصصة في الجمع بين البيانات المرئية والجدولية، ونماذج اللغة-الرؤية العامة (General-Purpose Vision-Language Models) وطرق مدعومة بالأدوات.
تكشف النتائج عن التحديات الكبيرة التي تواجه التعلم المرئي-الجدولي، ما يُشجع المجتمع العلمي على مواصلة تطوير نماذج قوية ومبتكرة لتلبية احتياجات هذا المجال المتنامي.هل أنتم مستعدون للغوص في عالم VT-Bench؟
لزيارة الموقع الرسمي لـ VT-Bench ولمزيد من التفاصيل، يمكنكم الدخول على الرابط: [VT-Bench GitHub](https://github.com/Ziyi-Jia990/VT-Bench)
VT-Bench: المعيار الثوري لتعلم البيانات المرئية والجدولية متعدد النماذج!
يُعَد VT-Bench الأول من نوعه في توحيد معايير التنبؤ التمييزي والتفكير التوليدي في المجال المرئي-الجدولي. هذه المبادرة تسلط الضوء على تحديات كبيرة في التعلم متعدد الأنماط وتحفز المجتمع لبناء نماذج أقوى.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
