في عصر الذكاء الاصطناعي، أصبح لدينا نماذج لغوية متعددة الوسائط (Multimodal Large Language Models) قادرة على فهم الصور وتوليد محتوى بصري مذهل. ولكن، هل تستطيع هذه النماذج حقًا الحكم على الجمال؟

بحث حديث تم نشره في arXiv تحت عنوان "Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?" يثير تساؤلات مثيرة حول قدرة النماذج الحالية على تقييم الجمال بشكل دقيق. أغلب الحلول الحالية تقوم بتقليص هذا الحكم إلى توقعات رقمية لقيمة واحدة لصورة معينة، مما يؤدي إلى ضعف المطابقة مع الحكم المباشر من قبل الخبراء.

في دراسة مضبوطة مع ثمانية حكام محترفين، وُجد أن التقييمات الرقمية لا تعكس التفضيلات المقارنة بدقة، بينما حققت التقييمات المباشرة توافقًا أفضل في تحديد أفضل وأسوأ الصور. استجابةً لهذه النتائج، تم تقديم 'معيار الجمال البصري' (Visual Aesthetic Benchmark) الذي يجسد تقييم الجمال كاختيار مقارن ضمن مجموعات مرشحة. يتضمن هذا المعيار 400 مهمة و1,195 صورة عبر الفنون التشكيلية والتصوير الفوتوغرافي والرسوم التوضيحية، مع تسميات مستندة إلى توافق 10 حكام مستقلين لكل مهمة.

عند تقييم 20 نموذجًا من النماذج الرائدة، وجد الباحثون أن أقوى النظم لم تتمكن من تحديد أفضل وأسوأ صورة بدقة إلا في 26.5% من المهام، في حين حقق الخبراء البشر نسبة تصل إلى 68.9%. كما يُظهر أن تعديل نموذج يحتوي على 35 مليار معلمة قد يحسن دقته قريبًا من نموذج مفتوح الوزن بقدرة 397 مليار معلمة، مما يشير إلى إمكانية نقل الإشارات المقارنة.

هذه النتائج تُظهر فجوة واضحة وقابلة للقياس بين النماذج متعددة الوسائط الحالية والأحكام الجمالية الخبراء. ومع معيار VAB الجديد، يصبح بمقدورنا تتبع هذه الفجوة والعمل على إغلاقها، مما يعني أن الذكاء الاصطناعي قد يقترب يومًا ما من فهم مفهوم الجمال بصورة أكثر دقة.

ما رأيكم في قدرة الذكاء الاصطناعي على تقييم الجمال؟ هل تعتقدون أنه سيكون قادرًا على تجاوز هذه الفجوة يومًا ما؟ شاركونا في التعليقات.