أصبح استخدام نماذج اللغة الكبيرة (LLMs) في توليد مجموعات بيانات اصطناعية اتجاهًا واعدًا لتحسين أداء الذكاء الاصطناعي. وكما هو الحال في العديد من التقنيات الحديثة، تأتي هذه الطريقة مع تحديات مهمة، أهمها الانحياز الذي يمكن أن تتضمنه البيانات التدريبية. الانحيازات ليست فقط نتيجة للبيانات التي تم تدريب النماذج عليها، بل يمكن أن تنتقل وتتعزز خلال عملية التدريب على البيانات الاصطناعية، مما يؤثر سلبًا على العدالة والموثوقية في تحقيق النتائج.

في دراسة جديدة، يتم تقديم أول تحقيق شامل لفهم هذه الظاهرة المعقدة، والتي تعرف باسم "وراثة الانحياز" (Bias Inheritance). التركيز هنا ينصب على كيفية تأثير الانحيازات المختلفة على أداء النماذج في مهام التصنيف والتوليد. وقد تم إجراء تجارب منهجية عبر 10 مهام مختلفة، لتحليل كيفية تجسيد 6 أنواع مختلفة من الانحيازات.

تكشف النتائج أن "وراثة الانحياز" تسبب أضرارًا واضحة في أداء المهام المرتبطة مباشرةً بهذا الانحياز. وتم تحديد ثلاثة عوامل مهمة تؤدي إلى عدم توافق البيانات: عدم توافق القيم، بيانات المجموعات، وتوزيع البيانات. بناءً على هذه الرؤى، تم اقتراح ثلاث استراتيجيات للتخفيف: استراتيجيات تستند إلى الرموز (token-based)، واستراتيجيات قائمة على الأقنعة (mask-based)، وأخرى تستند إلى الخسارة (loss-based). تشير هذه النتائج إلى أن تحديات التخفيف من آثار وراثة الانحياز ليست بالأمر الهيّن على الإطلاق.

إن فهم وراثة الانحياز يستحق المزيد من البحث والدراسة، حيث يمكن أن يؤدي إلى تحسينات جوهرية في كيفية استخدام البيانات الاصطناعية ومساعدة النماذج على الأداء بشكل أكثر إنصافًا وموثوقية.