في عالم متسارع نحو الذكاء الاصطناعي، حيث تتسابق الشركات لتطوير نماذج لغوية متعددة الوسائط (Multimodal Large Language Models - MLLMs)، جاءت دراسة جديدة تحمل عنوان "VisualNeedle" لتطرح تساؤلات مهمة حول فعالية هذه النماذج في استخدام الأدلة البصرية.
تشير الدراسة إلى أن النماذج قد حققت دقة تفوق 90% على معايير الإدراك الدقيق، لكن هذه الأرقام لا تعكس الاستخدام الفعلي للأدلة البصرية. فقد توصل الباحثون إلى ثلاثة نقاط مفصلية: الأولى تتعلق بالاعتماد على المفردات أو القواعد اللغوية، حيث يمكن للنماذج تمتاز للوصول إلى إجابات معقولة دون الحاجة إلى رؤية الصورة نفسها.
أما الثانية فتتعلق بالقدرة على تخطي التفاصيل الدقيقة من خلال الاعتماد على الدلالات العامة للصورة، والثالثة تشير إلى أن التلاعب بالصور الوسيطة في بعض الاختبارات يؤثر قليلاً على النتائج النهائية.
لذا، قدمت الدراسة benchmark جديد يُعرف باسم VisualNeedle، وهو معيار صعب يتطلب من النماذج التعرف على أدلة بصرية دقيقة متواجدة في مناطق صغيرة.
تم اختبار 9 من النماذج البارزة عبر ثلاث إعدادات: بدون أدوات، مع أدوات، ووضع "crop-black" الذي يهدف إلى معرفة ما إذا كان الاعتماد على الأدلة البصرية الحقيقية هو ما يجعل النماذج تنجح في الاختبار.
والنتائج كانت مثيرة للدهشة؛ فالدقة بدون أدوات لم تتجاوز 20%، بينما حقق أفضل نموذج باستخدام الأدوات دقة 56.01% فقط، وأكدت هذه النتائج على القيود المستمرة في البحث البصري الدقيق.
لذا، ما زالت الأبحاث مستمرة لفهم أعمق لكيفية استفادة هذه النماذج من المشهد المرئي لتحقيق نتائج دقيقة وموثوقة. هل تعتقد أن النماذج الحالية ستتجاوز هذه القيود؟ شاركونا آرائكم في التعليقات!
هل يمكن للذكاء الاصطناعي إتقان البحث البصري؟ اكتشافات ثورية مع VisualNeedle!
تقدم دراسة جديدة أدوات تقييم مبتكرة للذكاء الاصطناعي تكشف عن عجز النماذج في استخدام الأدلة البصرية بشكل موثوق. تعرف على VisualNeedle وما يعنيه لتطور الذكاء الاصطناعي في البحث البصري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
