في ظل التنامي السريع لتقنيات الذكاء الاصطناعي، يبقى انصباب الجهود على [تحسين](/tag/تحسين) القدرة على معالجة وفهم [البيانات المرئية](/tag/[البيانات](/tag/البيانات)-المرئية). ومعظم [المعايير](/tag/المعايير) الحالية في مجال حل الأسئلة البصرية (Visual Question Answering - [VQA](/tag/vqa)) تدور حول المهام المبنية على الإدراك البصري. لكن ما هو أكثر من ذلك؟
تقديم WikiVQABench يمثل قفزة نوعية في هذا المجال، حيث يوفر معيارًا بشرية مرتبطة بالمعرفة. يعتمد هذا المعيار على دمج منهجي بين [صور](/tag/صور) ويكيبيديا، وشرح المقالات ذات الصلة، والمعرفة المهيكلة من ويكي [بيانات](/tag/بيانات).
تستخدم عملية [جمع البيانات](/tag/جمع-[البيانات](/tag/البيانات)) [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) لتوليد مجموعات من [أسئلة متعددة الخيارات](/tag/أسئلة-متعددة-الخيارات) مرتبطة بالصور. ثم يتم مراجعة جميع الحالات الناتجة وتحريرها بواسطة معلّقين بشريين لضمان [دقة](/tag/دقة) الحقائق، وتناسق النص مع الصورة، ولضمان أن كل سؤال يتطلب [معرفة](/tag/معرفة) خارجية بجانب [الأدلة](/tag/الأدلة) البصرية.
يضم WikiVQABench مجموعة كبيرة من [صور](/tag/صور) [ويكيبيديا](/tag/ويكيبيديا) مع [أسئلة متعددة الخيارات](/tag/أسئلة-متعددة-الخيارات) مصممة خصيصًا لقياس [أداء](/tag/أداء) [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) المعتمدة على [المعرفة](/tag/المعرفة) (Knowledge-Aware [Vision-Language Models](/tag/vision-language-models) - [VLMs](/tag/vlms)).
عُقدت [تقييمات](/tag/تقييمات) على خمسة عشر نموذجًا من VLMs، تراوحت دقتها ما بين 24.7% إلى 75.6%. هذه النتائج تكشف قدرة المعيار على تمييز قدرات [النماذج](/tag/النماذج) في [التفكير](/tag/التفكير) المعتمد على [المعرفة](/tag/المعرفة).
إذا كنت تبحث عن [فهم](/tag/فهم) أفضل كيف يمكن للمعرفة أن تُدمج في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) وتحسين [أداء](/tag/أداء) النماذج، فإن WikiVQABench هو الخطوة المثالية لك!
ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).
ويكيبيديا تبتكر: WikiVQABench كمرجع رائد في حل الأسئلة البصرية المبنية على المعرفة!
تقدم WikiVQABench معيارًا جديدًا لحل الأسئلة البصرية، يجمع بين صور ويكيبيديا والمعرفة المنظمة من ويكي بيانات. هذا الابتكار يتجاوز التقليدية ويتحدى النماذج بإجابات تتطلب معرفة خارج حدود الصور!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
