في إندونيسيا، التي تحتضن أكثر من 1300 مجموعة عرقية و700 لغة أصلية، لا يزال تقييم انحياز نماذج اللغة الكبيرة (Large Language Models - LLMs) موضوعاً مهماً يحتاج إلى بحث أعمق. لهذا السبب، تم تطوير معيار إندوباياس كأداة متخصصة لتقييم هذا الانحياز بطريقة تعكس التنوع الثقافي والاجتماعي الغني في البلاد.
يتميز إندوباياس بتقديم مسارين متوازيين لتقييم الانحياز: أحدهما موجه نحو العمق (مع أزواج متباينة) والآخر موجه نحو العرض (مع أساليب قائمة على التوليد)، حيث تستند الطريقة الأخيرة إلى أطر علمية اجتماعية مثل SPI وO*NET وWGI.
تشير النتائج إلى أن نماذج اللغة الحالية، وخصوصاً نماذج الديكودر، تظهر انحيازاً ملحوظاً تجاه الجمل النمطية في اللغة الإندونيسية. وقد أظهرت اللغات المحلية الأخرى، مثل الجاوية والسُندانية ومكاسر، مستويات أعلى من الانحياز في تصنيفات مثل الأيديولوجيا والدين.
أيضاً، تظهر الاستجابة من نماذج اللغة تبايناً غير متساوي في قطبية الصور النمطية عند سؤالها عن كيانات محلية مختلفة. وتبين الدراسة أن نصوص Common Crawl تساهم في زيادة الانحياز أثناء التدريب الأولي مقارنة بنصوص المقالات المُراجعة من قبل البشر، مثل ويكيبيديا والأخبار، بينما إدخال اللغات المحلية يعمق من الانحياز بشكل عام.
يبرز هذا العمل أهمية دراسة الانحياز في سياقات ثقافية محددة، مما يسهل على الباحثين والمطورين فهم التحديات المرتبطة بتعزيز العدالة التمثيلية.
إندوباياس: معيار مزدوج ثري لتقييم انحياز نماذج اللغة في اللغات الإندونيسية
يقدم معيار إندوباياس فحصاً موسعاً لانحياز نماذج اللغة في إندونيسيا، مستنداً على التنوع الثقافي المحلي. يهدف إلى تقييم النزعة التمييزية في اللغات الإندونيسية ولغات محلية أخرى مثل الجاوية والسُندانية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
