في عالم الذكاء الاصطناعي، تعتبر الكفاءة الثقافية في نماذج اللغة الكبيرة (LLMs) ضرورة حتمية لفهم واستخدام الاختلافات الثقافية المتنوعة. ومع ذلك، لازالت التقييمات في هذا المجال تعاني من نقص شديد في البيانات عالية الجودة التي تحتوي على عناصر ثقافية محددة (CSIs) وأزواج جمل متوازية عبر ثقافات مختلفة. هنا يأتي دور XCR-Bench، وهو معيار جديد لتقييم التفكير عبر الثقافات.

تحتوي الأداة XCR-Bench على 4,100 جملة متوازية و1,098 عنصر ثقافي مخصص، موزعة على ثلاثة مهام تحليلية. يدمج هذا الشكل منهجية نيوارك (Newmark's CSI framework) مع نظرية هول (Hall's Triad of Culture)، مما يسمح بتقييم مستويات رؤية الثقافة - بدءًا من الممارسات الواضحة وصولاً إلى الأعراف والقيم الاجتماعية الضمنية.

أظهرت التجارب التي أجريت على ثمانية نماذج لغوية متعددة اللغات أن النماذج المتطورة تُظهر نقاط ضعف متكررة في التعرف على عناصر CSIs المحددة وتكييفها، مما يسلط الضوء على الفجوة بين الاسترجاع السطحي والتفكير الثقافي الصريح. أظهرت النتائج انخفاضاً ملحوظاً في الأداء على الفئات الثقافية الحساسة ومستويات الثقافة الأعمق (p<0.005، 8/8 نماذج)، كما أظهرت جودة التكيف تبايناً منهجياً عبر الثقافات المستهدفة وتباينات إقليمية في الثقافة البنغالية، مما يُشير إلى وجود تحيزات إقليمية ودينية عرقية حتى ضمن إطار لغوي واحد.

نحن متحمسون للإعلان عن إتاحة بيانات هذه الأداة ورمز البرمجة للجمهور، مما سيسهم في دعم الأبحاث المستقبلية في معالجة اللغات الطبيعية عبر الثقافات.