في عالم الذكاء الاصطناعي، تبرز النماذج متعددة الوسائط (Multimodal Foundation Models) مثل GPT-4o باعتبارها من أبرز الابتكارات الحديثة. رغم التقدم المذهل الذي حققته هذه النماذج، إلا أن فهمها البصري قد يكون محاطًا بالغموض، خصوصًا عندما نتجاوز مجرد طرح الأسئلة والحصول على الإجابات.
أجرت دراسة جديدة تقييمًا شاملًا لمجموعة من النماذج مثل GPT-4o، o4-mini، Gemini 1.5 Pro، Gemini 2.0 Flash، Claude 3.5 Sonnet، Qwen2-VL وLlama 3.2. تم قياس أدائها في مهام الرؤية الحاسوبية القياسية، مثل تقسيم الصور (semantic segmentation)، واكتشاف الأجسام (object detection)، وتصنيف الصور (image classification)، وتوقع العمق والسطح.
لكنّ التحديات التي واجهها الباحثون كانت واضحة للغاية. فمعظم هذه النماذج مصممة لإنتاج النصوص، ما يجعلها عاجزة عن التعبير عن مجالات متنوعة، مثل الأجزاء الهندسية أو الهندسة ثلاثية الأبعاد. كما أن العديد من النماذج الرائدة تتطلب الوصول عبر واجهة برمجة التطبيقات (API) ولا تتيح الوصول إلى الأوزان الخاصة بها.
للتغلب على هذه العقبات، قام الباحثون بترجمة مهام الرؤية إلى تنسيقات قابلة للاستخدام عبر واجهة برمجة التطبيقات باستخدام تقنيات ربط السلاسل النصية (prompt chaining) لإنشاء إطار عمل قياسي لتقييم الأداء.
ومن خلال هذه الدراسة، خرج الباحثون بعدة ملاحظات هامة:
1) النماذج متعددة الوسائط لم تحقق مستوى النماذج المتخصصة الرائدة في أيٍ من المهام.
2) رغم ذلك، تُظهر أنها تتمتع بقدرات محترمة في مجالاتها العامة.
3) الأداء في المهام الدلالية يتفوق بوضوح على الأداء في المهام الهندسية.
4) من بين هذه النماذج، قدم GPT-4o أفضل أداء، حيث فاز في 4 من 6 مهام.
5) النماذج التي تعتمد على التفكير، مثل o3، أظهرت تحسنًا في المهام الهندسية.
6) على الرغم من أن تقنيات ربط السلاسل يؤثر على الأداء، إلا أن النماذج الأفضل كانت أقل حساسية للاختلافات في التعليمات النصية.
7) تحليل النماذج التي تتضمن توليد الصور البصرية، مثل GPT-4o، أظهر أنها تعاني من حالات فشل، مثل الأجسام الوهمية أو عدم التوافق بين المدخلات والمخرجات.
ختامًا، تظل النماذج متعددة الوسائط مثار اهتمام كبير، لكنها لا تزال بحاجة إلى تحسينات كبيرة في مجالات محددة. فهل تعتقد أن GPT-4o يمكن أن يتحسن في المستقبل؟ شاركونا آرائكم في التعليقات.
كيف يفهم GPT-4o الرؤية؟ تقييم النماذج متعددة الوسائط في مهام الرؤية الحاسوبية
شهدت النماذج متعددة الوسائط (MFMs) مثل GPT-4o تقدمًا مذهلاً، لكن فهمها البصري يحتمل أن يكون غير واضح. تكشف دراسة جديدة كيفية أداء هذه النماذج في مهام الرؤية الحاسوبية القياسية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
