تعتبر [معالجة اللغات](/tag/معالجة-[اللغات](/tag/اللغات)) المتعددة (Multilingual [NLP](/tag/nlp)) من المجالات المتطورة في عالم الذكاء الاصطناعي، حيث يعتمد الباحثون بشكل كبير على كتالوجات [البيانات](/tag/البيانات) لتحديد [اللغات](/tag/اللغات) التي تتمتع بموارد وفيرة وأخرى تعاني من نقصٍ فيها. لكن ماذا لو كانت هذه الكتالوجات لا تعكس [الصورة](/tag/الصورة) كاملةً؟

في [دراسة](/tag/دراسة) حديثة، تم تسليط الضوء على مشكلة [الفجوة](/tag/الفجوة) في [شفافية](/tag/شفافية) البيانات، حيث تشير النتائج إلى أن الكتالوجات تسجل فقط جانبًا واحدًا من [رؤية](/tag/رؤية) البيانات—أي ما تم تسجيله أو توزيعه بشكل مؤسسي. لكن هذه الكتالوجات لا تعبر دائماً عن [البيانات](/tag/البيانات) التي تم إنشاؤها أو الاستشهاد بها أو إعادة استخدامها في الأدبيات البحثية.

للتحقيق في هذه الفجوة، قدم الباحثون [مؤشر كثافة الموارد](/tag/مؤشر-كثافة-الموارد) (Resource Density Index - RDI)، الذي يعرف بأنه [عدد](/tag/عدد) [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)) المسجلة لكل مليون متحدث. وقد تم حسابه لأكثر من 200 [لغة](/tag/لغة) الأكثر تحدثًا، وفقًا لقاموس إيثنولوج (Ethnologue). وتبين أن 118 [لغة](/tag/لغة) (59%) لم تكن لديها أي [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) مسجلة في [خرائط](/tag/خرائط) LRE ومركز [البيانات](/tag/البيانات) اللغوية (Linguistic Data Consortium - LDC)، بينما كانت 23 [لغة](/tag/لغة) أخرى تسجل أقل من 0.1، مما يعني [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) واحدة فقط لكل عشرة ملايين متحدث.

بالإضافة إلى ذلك، باستخدام [تقنية](/tag/تقنية) استخراج الاستشهادات المعتمدة على [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models))، [تمكن](/tag/تمكن) الباحثون من تحديد 609 [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) فريدة [عبر](/tag/عبر) 53 [لغة](/tag/لغة) من ذوات [الرؤية](/tag/الرؤية) المنخفضة، حيث تبين أن 356 منها متاحة علنياً [عبر](/tag/عبر) روابط عامة.

تكشف هذه النتائج عن فجوة كبيرة في [الرؤية](/tag/الرؤية): إذ يبدو أن العديد من [اللغات](/tag/اللغات) ذات [عدد](/tag/عدد) المتحدثين الكبير تعاني من [نقص البيانات](/tag/نقص-[البيانات](/tag/البيانات)) في سجلات الكتالوجات، بينما تتوفر لديها دلائل واضحة على نشاط [البيانات](/tag/البيانات) في الأدبيات البحثية. لذا، يجب أن يُفهم [نقص البيانات](/tag/نقص-[البيانات](/tag/البيانات)) المتعددة [اللغات](/tag/اللغات) ليس فقط كمسألة إنتاج، بل كمسألة [توثيق](/tag/توثيق) واكتشاف والوصول على المدى الطويل.

تم إتاحة [الكود](/tag/الكود) والبيانات للجمهور عند الرابط التالي: [https://github.com/zhiyintan/dataset-visibility-asymmetry]. ما رأيكم في هذه النتائج؟ هل تعتقدون أن [البيانات](/tag/البيانات) المتاحة للغات تمثل الواقع؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!