تعتبر [معالجة اللغات](/tag/معالجة-[اللغات](/tag/اللغات)) المتعددة (Multilingual [NLP](/tag/nlp)) من المجالات المتطورة في عالم الذكاء الاصطناعي، حيث يعتمد الباحثون بشكل كبير على كتالوجات [البيانات](/tag/البيانات) لتحديد [اللغات](/tag/اللغات) التي تتمتع بموارد وفيرة وأخرى تعاني من نقصٍ فيها. لكن ماذا لو كانت هذه الكتالوجات لا تعكس [الصورة](/tag/الصورة) كاملةً؟
في [دراسة](/tag/دراسة) حديثة، تم تسليط الضوء على مشكلة [الفجوة](/tag/الفجوة) في [شفافية](/tag/شفافية) البيانات، حيث تشير النتائج إلى أن الكتالوجات تسجل فقط جانبًا واحدًا من [رؤية](/tag/رؤية) البيانات—أي ما تم تسجيله أو توزيعه بشكل مؤسسي. لكن هذه الكتالوجات لا تعبر دائماً عن [البيانات](/tag/البيانات) التي تم إنشاؤها أو الاستشهاد بها أو إعادة استخدامها في الأدبيات البحثية.
للتحقيق في هذه الفجوة، قدم الباحثون [مؤشر كثافة الموارد](/tag/مؤشر-كثافة-الموارد) (Resource Density Index - RDI)، الذي يعرف بأنه [عدد](/tag/عدد) [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)) المسجلة لكل مليون متحدث. وقد تم حسابه لأكثر من 200 [لغة](/tag/لغة) الأكثر تحدثًا، وفقًا لقاموس إيثنولوج (Ethnologue). وتبين أن 118 [لغة](/tag/لغة) (59%) لم تكن لديها أي [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) مسجلة في [خرائط](/tag/خرائط) LRE ومركز [البيانات](/tag/البيانات) اللغوية (Linguistic Data Consortium - LDC)، بينما كانت 23 [لغة](/tag/لغة) أخرى تسجل أقل من 0.1، مما يعني [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) واحدة فقط لكل عشرة ملايين متحدث.
بالإضافة إلى ذلك، باستخدام [تقنية](/tag/تقنية) استخراج الاستشهادات المعتمدة على [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models))، [تمكن](/tag/تمكن) الباحثون من تحديد 609 [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) فريدة [عبر](/tag/عبر) 53 [لغة](/tag/لغة) من ذوات [الرؤية](/tag/الرؤية) المنخفضة، حيث تبين أن 356 منها متاحة علنياً [عبر](/tag/عبر) روابط عامة.
تكشف هذه النتائج عن فجوة كبيرة في [الرؤية](/tag/الرؤية): إذ يبدو أن العديد من [اللغات](/tag/اللغات) ذات [عدد](/tag/عدد) المتحدثين الكبير تعاني من [نقص البيانات](/tag/نقص-[البيانات](/tag/البيانات)) في سجلات الكتالوجات، بينما تتوفر لديها دلائل واضحة على نشاط [البيانات](/tag/البيانات) في الأدبيات البحثية. لذا، يجب أن يُفهم [نقص البيانات](/tag/نقص-[البيانات](/tag/البيانات)) المتعددة [اللغات](/tag/اللغات) ليس فقط كمسألة إنتاج، بل كمسألة [توثيق](/tag/توثيق) واكتشاف والوصول على المدى الطويل.
تم إتاحة [الكود](/tag/الكود) والبيانات للجمهور عند الرابط التالي: [https://github.com/zhiyintan/dataset-visibility-asymmetry]. ما رأيكم في هذه النتائج؟ هل تعتقدون أن [البيانات](/tag/البيانات) المتاحة للغات تمثل الواقع؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!
كشف النقاب عن الفجوة في بيانات اللغات: هل تعكس الكتالوجات فعلاً واقع الموارد المتعددة؟
تُظهر دراسة جديدة أن الكتالوجات لا تعكس دائما مدى توفر البيانات لمنصات معالجة اللغات المتعددة. باستخدام مؤشر كثافة الموارد، تم اكتشاف فجوة كبيرة في البيانات المتاحة للعديد من اللغات الشائعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
