تعتبر معالجة اللغات المتعددة (Multilingual NLP) من المجالات المتطورة في عالم الذكاء الاصطناعي، حيث يعتمد الباحثون بشكل كبير على كتالوجات البيانات لتحديد اللغات التي تتمتع بموارد وفيرة وأخرى تعاني من نقصٍ فيها. لكن ماذا لو كانت هذه الكتالوجات لا تعكس الصورة كاملةً؟

في دراسة حديثة، تم تسليط الضوء على مشكلة الفجوة في شفافية البيانات، حيث تشير النتائج إلى أن الكتالوجات تسجل فقط جانبًا واحدًا من رؤية البيانات—أي ما تم تسجيله أو توزيعه بشكل مؤسسي. لكن هذه الكتالوجات لا تعبر دائماً عن البيانات التي تم إنشاؤها أو الاستشهاد بها أو إعادة استخدامها في الأدبيات البحثية.

للتحقيق في هذه الفجوة، قدم الباحثون مؤشر كثافة الموارد (Resource Density Index - RDI)، الذي يعرف بأنه عدد مجموعات البيانات المسجلة لكل مليون متحدث. وقد تم حسابه لأكثر من 200 لغة الأكثر تحدثًا، وفقًا لقاموس إيثنولوج (Ethnologue). وتبين أن 118 لغة (59%) لم تكن لديها أي مجموعات بيانات مسجلة في خرائط LRE ومركز البيانات اللغوية (Linguistic Data Consortium - LDC)، بينما كانت 23 لغة أخرى تسجل أقل من 0.1، مما يعني مجموعة بيانات واحدة فقط لكل عشرة ملايين متحدث.

بالإضافة إلى ذلك، باستخدام تقنية استخراج الاستشهادات المعتمدة على نماذج اللغة الكبيرة (Large Language Modelsتمكن الباحثون من تحديد 609 مجموعة بيانات فريدة عبر 53 لغة من ذوات الرؤية المنخفضة، حيث تبين أن 356 منها متاحة علنياً عبر روابط عامة.

تكشف هذه النتائج عن فجوة كبيرة في الرؤية: إذ يبدو أن العديد من اللغات ذات عدد المتحدثين الكبير تعاني من نقص البيانات في سجلات الكتالوجات، بينما تتوفر لديها دلائل واضحة على نشاط البيانات في الأدبيات البحثية. لذا، يجب أن يُفهم نقص البيانات المتعددة اللغات ليس فقط كمسألة إنتاج، بل كمسألة توثيق واكتشاف والوصول على المدى الطويل.

تم إتاحة الكود والبيانات للجمهور عند الرابط التالي: [https://github.com/zhiyintan/dataset-visibility-asymmetry]. ما رأيكم في هذه النتائج؟ هل تعتقدون أن البيانات المتاحة للغات تمثل الواقع؟ شاركونا آراءكم في التعليقات!