أعلنت مجموعة من الباحثين عن إطلاق معيار جديد يُدعى MindEdit-Bench، والذي يمتاز بإجراء تقييم شاملٍ لنماذج اللغة والرؤية (Vision-Language Models - VLMs) وقدرتها على التفكير المكاني النقدي. يسلط هذا المعيار الضوء على مدى قدرة هذه النماذج على التنبؤ بعواقب تحريك أو تدوير الأجسام، مما يختلف عن المهام السابقة التي كانت تركز على العلاقة المرئية الموجودة في البيانات المدخلة.
يستند MindEdit-Bench إلى مجموعة من الصور المأخوذة من الهواتف الذكية، حيث تم تطويره من خلال أنظمة استخراج مشاهد ثلاثية الأبعاد آلية. يتضمن المعيار ست مهام متنوعة تستكشف الإدراك وتحويل المنظور، مع وجود مهام جديدة مثل L4 (تحرير مكاني) وL5 (تحرير الرؤية المتقاطعة) التي تتحدى النماذج لإظهار القدرة على التفكير النقدي بمستوى الأجسام، حيث تكون الإجابات الصحيحة غير موجودة في الصور المدخلة.
قدمت دراسة شاملة على 15 نموذج VLMs باستخدام 1,003 سؤال تم التحقق من صحتها من قبل البشر، وكشفت النتائج أن دقة النماذج تتراوح بين 8% و31%، في مقابل دقة تصويت الناس التي تتراوح بين 81% و97%. هذه الفجوة الكبيرة، التي تصل إلى 53 نقطة مئوية، تنبه إلى الحاجة الملحة لتحسين هذه النماذج لتعزيز أدائها في مهام التفكير المكاني المعقدة.
في ظل هذه النتائج، يصبح من الواضح أن الاستثمار في تطوير قدرات هذه النماذج هو أمر بالغ الأهمية، بما أن الفجوة بين البشر والآلات في مجالات التفكير النقدي لا تزال كبيرة. كيف يمكن أن تؤثر نتائج هذا المعيار على تطور الذكاء الاصطناعي في المستقبل؟ دعونا نتناقش حول ذلك في التعليقات!
MindEdit-Bench: معيار جديد لتقييم قدرة نماذج اللغة والرؤية على التفكير المكاني النقدي
تم إطلاق معيار MindEdit-Bench لتقييم نماذج اللغة والرؤية، مركّزاً على قدراتها في التفكير المكاني المبتكر. النتائج تكشف فجوة كبيرة بين أداء هذه النماذج والدقة البشرية، مما يفتح المجال لتحسينات مستقبلية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
