مع تزايد تطور نماذج توليد الفيديو مثل Veo 3.1 وLTX-2، أصبحت القدرة على تمثيل الثقافات العالمية المتنوعة بدقة أولوية ملحة، ولا تزال الحدود التي تحتاج إلى دراسة عميقة. فحتى الآن، تقتصر المقاييس الحالية مثل VideoScore على قياس الجودة البصرية فقط دون أي آلية لتقييم الدقة الثقافية. مثلاً، يتمتع نموذج استبدل مصافحة 'Namaste' بمصافحة عادية بنفس الدرجة كنموذج ينتج الإيماءة بشكل صحيح.
لذلك، يأتي إطار "CultureScore" ليبتكر تقديرًا تفصيليًا يتمحور حول ثلاثة أبعاد رئيسية: الهوية (من يُمثل)، والسياق (الخلفية الثقافية المحددة)، والسلوك (الإيماءات والتفاعلات المعيارية). لقد قمنا بتطبيق هذا الإطار من خلال مجموعة تقييم تغطي 10 دول، مما أدى إلى إنتاج 6,180 فيديو عبر ثلاثة نماذج رائدة.
تظهر النتائج أن أي نموذج حالي لم يحقق أدنى حد من الدقة الثقافية؛ حيث سجل أفضل نموذج أداء 56.8% في تقدير CultureScore، بينما بقي بُعد السلوك الأكثر تحدياً عند مستوى أقل من 52% عبر جميع النماذج. وعلاوة على ذلك، تتماشى تصنيفات تفضيلات البشر بوجه عام مع CultureScore، لكنها كانت معكوسة بالنسبة لمقياس VideoScore؛ حيث جاء النموذج الأعلى في الجودة البصرية في المرتبة الأخيرة من قبل المقيِّمين، مما يبرز الحاجة إلى اعتبار الدقة الثقافية كمعيار أساسي في توليد الفيديو العادل.
Culturescore: هل يمكن للذكاء الاصطناعي تمثيل الثقافات بدقة في نماذج الفيديو؟
تقدم أبحاث جديدة إطاراً مبتكراً يُعنى بتقييم دقة تمثيل الثقافات في نماذج الفيديو. يُظهر البحث أن النماذج الحالية لا تحقق المعايير المطلوبة في هذا الصدد، مما يستدعي الابتكار في مجالات الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
