في عالم الذكاء الاصطناعي، تلعب نماذج اللغات الكبيرة (Large Language Models) دوراً محورياً في معالجة وفهم اللغات. ومع ذلك، تظهر دراسة جديدة أن اللغات الأفريقية تعاني من "ضريبة اللغة"، مما يزيد من تكاليف معالجة نصوصها.
تظهر الأبحاث أن نماذج اللغات التجارية تقيس الخصائص مثل التكلفة والوقت اللازم لمعالجة الرسائل لكل رمز لغوي تم استخدامه. ومع ذلك، تستخدم بعض اللغات الأفريقية عددًا أكبر من الرموز الفرعية (subword tokens) لنقل نفس المعنى مقارنة باللغات الأخرى، مما يؤدي إلى فرض عقوبات هيكلية على مستخدميها قبل حتى أن يتم استدعاء النموذج.
تم تنفيذ الدراسة على 20 لغة أفريقية من عائلات لغوية مختلفة، مستخدمةً مجموعة بيانات Parallel corpora لضمان أن التأثير اللغوي معزول عن المحتوى. النتائج كانت مذهلة: كل لغة أفريقية تحمل عبئًا إضافيًا من تكاليف الترميز مقارنة باللغة الإنجليزية، حيث كانت الزيادة متوسطة 1.88 مرة على نموذج GPT-5، وقد وصلت في بعض الحالات إلى 8.92 مرة.
هذا العبء الأكثر وضوحًا لوحظ في اللغات المكتوبة بالأبجديات الإثيوبية وN'Ko، حيث وصلت نقطتان إلى 7-9 مرات. ويترجم هذا إلى تكاليف استدلال تصل إلى 8.9 مرات عند مقارنتها باللغة الإنجليزية، بالإضافة إلى تأثيرات سلبية ملحوظة على سعة السياق المستخدم.
أسوأ ما في ذلك هو أن أفضل أداة لتحسين الترميز المتاحة حاليًا، Gemma 4، لا تستطيع إزالة هذه الضريبة بالكامل، بل تقلل فقط الزيادة في التكاليف من 3.31 مرة إلى 2.38 مرة.
وتم إتاحة أدوات قياس مفتوحة ومجموعة بيانات النتائج لتوجيه المطورين الأفارقة في سعيهم لتقليل هذه الفجوة الرقمية. إذن، ما هي الخطوات التالية للقضاء على هذه الفجوة في عالم متزايد التنافسية؟
ما رأيكم في هذا التطور؟ شاركونا آراءكم وتجاربكم في التعليقات!
تكلفة فرض ضريبة اللغة الأفريقية: كيف تؤثر على نماذج اللغات الكبيرة؟
تأثير ضريبة اللغة يظهر بوضوح في نماذج اللغات الكبيرة، حيث يمكن أن تدفع اللغات الأفريقية تكاليف إضافية في معالجة البيانات. دراسة جديدة تكشف لنا عن الفجوة الرقمية وتحديات التوظيف في عالم الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
