مع النسبة المتزايدة للتقدم في نماذج الرؤية واللغة (Vision-Language Models) ، تبرز الحاجة إلى مقاييس تقيم فعلاً قدراتها المعرفية. معظم هذه التقييمات تفتقر إلى العمق، حيث تركز على مهام غير مترابطة، مما يعيق فهم نقاط الضعف المعرفية وسبل تحسينها. لهذا السبب، نقدم لكم بلوم بنش، الذي يُعتبر جزءًا من سلسلة معايير 'ألميار'، أول معيار ثنائي اللغة مدعوم بفهم إنساني لتقييم نماذج الرؤية واللغة.

يتضمن بلوم بنش تقييمًا منهجيًا يعتمد على تصنيف بلوم، حيث يقيم ستة مستويات معرفية هي: تذكر، فهم، تطبيق، تحليل، تقييم، وإنشاء، من خلال مهام صورة-سؤال-جواب مصممة بعناية. تم بناء هذا الإطار باستخدام خط أنابيب شبه تلقائي وتم التحقق منه من خلال بروتوكول ضمان الجودة الهجين، مما يضمن الشمولية الثقافية واللغوية.

من خلال هذا الإطار، أجرينا دراسة شاملة لنماذج الرؤية واللغة العصرية لتشخيص ملفاتها المعرفية. وقد كشفت التحليلات عن عدم توازن حاد في القدرات المعرفية: بينما حققت النماذج الحديثة أداءً قويًا في الفهم الدلالي، إلا أنها تواجه صعوبات كبيرة في استرجاع الحقائق والتركيب الإبداعي. يُظهر هذا أن الكفاءة العامة في نماذج الرؤية واللغة تخفي قيودًا أعمق في طبقات معرفية محددة.

علاوة على ذلك، تشير النتائج إلى وجود فجوة أداء ملحوظة بين العربية والإنجليزية، مما يكشف عن التحديات الحالية في التفكير المعرفي متعدد اللغات. هذه النتائج تشكل أساسًا لتطوير نماذج أكثر توافقًا معرفياً وشمولية. للحصول على المزيد من التفاصيل حول إطار العمل ومجموعة البيانات، يمكنكم زيارة الرابط التالي: https://github.com/qcri/Almieyar-Oryx-BloomBench.

ما رأيكم في هذا التطور الجديد في عالم الذكاء الاصطناعي؟ شاركونا تعليقاتكم!