في عالم الذكاء الاصطناعي، تبرز نماذج اللغات الكبيرة متعددة الأنماط (MLLMs) كقوة مغيرة لقواعد اللعبة. ومع ذلك، لا تزال قدراتها في الفهم البصري والتفكير المجرد بحاجة إلى تقييم دقيق. ولهذا السبب، تم إطلاق بوليماث (PolyMATH)، معيار جديد مبتكر يهدف إلى تقييم القدرات العقلية العامة لهذه النماذج.
يتضمن بوليماث 5,000 صورة تم جمعها يدويًا، تحمل تحديات معرفية نصية وبصرية، موزعة على 10 فئات متميزة تشمل التعرف على الأنماط، التفكير المكاني، والتفكير النسبي. وقد أظهرت دراسة شاملة ومقدارية تم إجراؤها على 15 مLLM باستخدام أربعة استراتيجيات مختلفة لتحفيز النموذج، أن أفضل النتائج المسجلة على بوليماث كانت ~41% لـ Claude-3.5 Sonnet، و~36% لـ GPT-4o، و~27% لـ Gemini-1.5 Pro. هذه النتائج تسلط الضوء على التعقيد المنطقي والبصري للأسئلة المطروحة.
من خلال تحليل أخطاء دقيقة، اتضح أن النماذج تكافح لفهم العلاقات المكانية وتقديم استنتاجات عالية المستوى بشكل دقيق. وقد أظهرت دراسة توضيحية تقديرية لآداء النماذج عند تزويدها بوصف نصي بدلاً من الرسوم التوضيحية، أن تحسين الأداء كان ~4% عند استخدام الوصف النصي، مما يدل على أن النماذج لا تفهم حقًا المعلومات البصرية والمكانية الموجودة في الصور.
أخيرًا، تمت دراسة نماذج OpenAI o1، وأظهرت فقط تطابقًا مع المعايير البشرية، مما يبرز صعوبة المعيار الجديد. نتائج بوليماث توفر فرصًا كبيرة لتحسين التفكير متعدد الأنماط وتقدم رؤى فريدة لدعم تطوير MLLMs المستقبلية.
بوليماث: تحدي جديد للذكاء الاصطناعي في استنتاجات الرياضيات متعددة الأنماط
أطلق الباحثون بوليماث، معيارًا جديدًا لاختبار قدرات الذكاء الاصطناعي في التفكير الرياضي المعقد. يتضمن المعيار 5,000 صورة عالية الجودة تأتي مع تحديات فعلية لمختبرات الذكاء الاصطناعي متعددة الأنماط (MLLMs).
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
