على الرغم من التقدم الهائل في تقنيات استرجاع المعلومات، إلا أن التعامل مع بيانات معقدة مثل الجداول والرسوم البيانية والصور لا يزال يمثل تحديًا كبيرًا. هنا يأتي دور ViDoRe V3، وهو معيار جديد يهدف إلى تحسين كفاءة تقنيات الجيل المعزز بالاسترجاع (Retrieval-Augmented Generation) في معالجة المعلومات متعددة الأنماط. هذه المنصة تتضمن تقييماً شاملاً يتجاوز حدود الاسترجاع البسيط للوثائق.

تتكون ViDoRe V3 من نحو 26,000 صفحة وثائقية من مجموعة متنوعة من المجالات المهنية، مصحوبة بـ 3,099 استفسار تم التحقق من صحتها من قبل البشر، وتتوفر بجميع البيانات بـ 6 لغات. من خلال جهود توثيق بشرية استغرقت أكثر من 12,000 ساعة، يستفيد الباحثون الآن من توضيحات عالية الجودة سواء للاسترجاع أو لتحديد المواقع أو للردود المعتمدة.

تشير النتائج إلى أن نماذج الاسترجاع البصرية تتقدم على النماذج النصية، حيث تحسن نماذج التفاعل المتأخر وإعادة ترتيب النص بشكل ملحوظ الأداء الكلي. كما أن السياقات الهجينة أو البصرية تساعد على تحسين جودة توليد الإجابات. رغم كل هذا، لا تزال النماذج الحالية تواجه صعوبات في التعامل مع العناصر غير النصية والأسئلة المفتوحة.

للمساهمة في رفع مستوى هذه التحديات، تم إصدار هذا المعيار تحت ترخيص يسمح بالاستخدام التجاري من هنا: [ViDoRe](https://hf.co/vidore).