في عالم الذكاء الاصطناعي، لطالما كانت النماذج متعددة الوسائط (Large Multimodal Models - LMMs) في طليعة التطورات التكنولوجية. فقد شهدت قفزات هائلة في قدرتها على التفاعل مع محيطها وفهم المشاهد بشكل عميق. ولكن يبقى السؤال الأهم: هل يمكن لهذه النماذج تقديم حلول إبداعية في بيئات مفتوحة تتجاوز مجرد التعرف على الأنماط؟

الذكاء البشري يتمثل في القدرة على التفكير الإبداعي، والابتكار في إعادة توظيف العناصر المتاحة بطرق غير تقليدية. ومع ذلك، فإن هذا النوع من التفكير لا يزال بعيدًا عن الاختبارات الفعالة في النماذج الحالية. لمواجهة هذا التحدي، تم تطوير معيار جديد يُدعى MM-CreativityBench، وهو منصة لرصد القدرة على استخدام الأدوات بطريقة إبداعية ومبنية على القدرات الحسية في بيئات غنية بصرياً وذات قيود فعلية.

كل سيناريو في MM-CreativityBench يقدم صورة لمشهد مع عرض منظم للكيانات المرشحة وأجزائها، مما يمكّن من تقييم تفاعلي دقيق لكيفية فحص النماذج للمشهد وتحديد الفرص المتاحة، وصياغة حلول تُعتمد على الواقع.

أظهرت التجارب أن النماذج الحديثة كثيراً ما تخفق في تحقيق الأهداف المرجوة، ليس بسبب نقص في القدرة الإنتاجية، ولكن لأنهم لا يستمرون في استكشاف العناصر المطابقة. غالباً ما تتجاهل النماذج كيانات مهمة أو تفحص أجزاءً حيوية بشكل غير كافٍ أو تبتكر صفات غير مرتبطة بالصور.

لمعالجة هذه المشكلة، تم اقتراح مفهوم "المواءمة المبنية على الفرص"، حيث يعاد تصور استخدام الأدوات الإبداعية كمسألة تعلم تفضيلات. باستخدام تقنيات مثل تحسين التفضيلات المباشرة، نحفز النماذج على تفضيل التفكير القائم على الأدلة المرئية بدلاً من البدائل الوهمية. كما تم تضمين إشراف مستمد من قاعدة بيانات المعرفة المتعلقة بالفرص لتوجيه الاستكشاف الأوسع للكيانات وتخطيط متعدد المراحل.

تظهر النتائج تحسناً ملحوظاً في اختيار الكيانات والأجزاء الصحيحة، مع تقليص كبير للأخطاء المتعلقة بالهلوسة وارتباطها بالواقع. يبدو أن الطريق نحو ذكاء إبداعي في الذكاء الاصطناعي قد أصبح أكثر وضوحاً، ولكن هل يمكن للنماذج أن تختبر حدود إبداعها؟