عالم الذكاء الاصطناعي: اختبارات الذكاء البصري تكشف أسرار قدرات نماذج اللغة متعددة الوسائط!
تمتلك نماذج اللغة متعددة الوسائط (MLLMs) تقدماً ملحوظاً في اختبارات اللغة والرؤية، لكن فهم قدراتها في التفكير البصري لا يزال محدوداً. تم تقديم اختبار مبتكر تحت مسمى 'عين العقل' لتقييم هذه القدرات.
في عالم سريع التغير يكتسب فيه الذكاء الاصطناعي (AI) أهمية متزايدة، يكشف لنا اختبار جديد بعنوان 'عين العقل' (Mind's Eye) عن جوانب غير معروفة من القدرات البصرية لنماذج اللغة متعددة الوسائط (Multimodal Large Language Models). هذا الاختبار يجمع بين ثمانية مهام بصرية مستلهمة من اختبارات الذكاء البشري الكلاسيكية، ضمن تصنيف فريد يسمى 'A-R-T'، والذي يشمل التجريد (Abstraction)، العلاقة (Relation)، والتحول (Transformation).
يستهدف 'عين العقل' قياس العمليات الأساسية للذكاء السائل، مثل استنتاج الأنماط، ورسم العلاقات التناظرية، والتحول الذهني. في دراسة شاملة، تم تقييم أداء مجموعة متنوعة من نماذج اللغة الكبيرة، سواء كانت مغلقة المصدر أو مفتوحة المصدر، ومقارنتها بأداء المشاركين البشر.
كانت نتيجة الدراسات مثيرة للاهتمام؛ فقد حقق البشر دقة بلغت 80%، بينما ظلت أفضل نماذج MLLMs تحت 50%. فيما أظهر تحليل الأخطاء أن هناك نقصاً في ثلاث مجالات رئيسية: (i) تخصيص الانتباه البصري، (ii) التعامل الإدراكي الداخلي، و(iii) ضعف التجريد عن المفاهيم البصرية الأساسية.
تشير النتائج إلى أن نماذج MLLMs الحالية تعاني من قدرات محدودة في التفكير البصري المكاني عند مقارنتها بالبشر، مما يبرز الحاجة إلى تطوير أطر تقييم أكثر ترسيخاً في المعرفة العقلية. هل سيكون هذا الاختبار بداية لثورة في كيفية تقييم الذكاء الاصطناعي؟
يستهدف 'عين العقل' قياس العمليات الأساسية للذكاء السائل، مثل استنتاج الأنماط، ورسم العلاقات التناظرية، والتحول الذهني. في دراسة شاملة، تم تقييم أداء مجموعة متنوعة من نماذج اللغة الكبيرة، سواء كانت مغلقة المصدر أو مفتوحة المصدر، ومقارنتها بأداء المشاركين البشر.
كانت نتيجة الدراسات مثيرة للاهتمام؛ فقد حقق البشر دقة بلغت 80%، بينما ظلت أفضل نماذج MLLMs تحت 50%. فيما أظهر تحليل الأخطاء أن هناك نقصاً في ثلاث مجالات رئيسية: (i) تخصيص الانتباه البصري، (ii) التعامل الإدراكي الداخلي، و(iii) ضعف التجريد عن المفاهيم البصرية الأساسية.
تشير النتائج إلى أن نماذج MLLMs الحالية تعاني من قدرات محدودة في التفكير البصري المكاني عند مقارنتها بالبشر، مما يبرز الحاجة إلى تطوير أطر تقييم أكثر ترسيخاً في المعرفة العقلية. هل سيكون هذا الاختبار بداية لثورة في كيفية تقييم الذكاء الاصطناعي؟
📰 أخبار ذات صلة
أبحاث
إعادة تعريف الكتابة: كيف تكشف الصياغات المكررة عن الذكاء الاصطناعي!
تيك كرانشمنذ 2 ساعة
أبحاث
Claude Mythos: هل يصبح سلاحًا سيبرانيًا فتاكًا في عصر الذكاء الاصطناعي؟
البوابة العربية للأخبار التقنيةمنذ 7 ساعة
أبحاث
هل ستمكننا الذكاء الاصطناعي من السيطرة على العالم؟ رؤى قادة التكنولوجيا
وايردمنذ 10 ساعة