في خطوة هامة [نحو](/tag/نحو) تعزيز استخدام [اللغة الصومالية](/tag/[اللغة](/tag/اللغة)-الصومالية) في مجالات الذكاء الاصطناعي، تم الإعلان عن إطلاق [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) SomaliWeb v1. تُعد [اللغة الصومالية](/tag/[اللغة](/tag/اللغة)-الصومالية) واحدة من [اللغات](/tag/اللغات) الكوشية في القرن الإفريقي، ويتحدث بها حوالي 25 مليون شخص، إلا أنه لم يكن هناك حتى الآن [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) مخصصة تسمح بتدريب [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) بشكل فعّال.
تتكون مجموعة SomaliWeb v1 من 819,322 مستنداً، مما يعادل حوالي 303 مليون رمز، وقد تم إنشاؤها من مصادر ثلاثية موثوقة تشمل HPLT v2، CC100، وموسوعة الصومال على [ويكيبيديا](/tag/ويكيبيديا). وقد استخدمت عملية [تطوير](/tag/تطوير) مكونة من ست مراحل لضمان [جودة البيانات](/tag/جودة-[البيانات](/tag/البيانات)) وموثوقيتها.
بجانب المجموعة، تم توفير [أداة](/tag/أداة) تقسيم الرموز (tokenizer) BPE-16K المطابقة، بالإضافة إلى أول مقياس علني لمقارنة ثلاثة متعرفات (language identifiers) للغة الصومالية.
من الملاحظ أن [البيانات](/tag/البيانات) الحالية قد احتوت على عيوب نوعية ملحوظة، حيث أظهرت القياسات أن الإصدار "المُنظف" من HPLT v2 يحتفظ بـ 17.3% من النسخ المقدمة، و56.1% من الوثائق بها مشاكل يمكن تصحيحها، بينما 10.7% منها تعتبر مستندات مشابهة تقريبًا.
كما يكشف استخدام [أداة](/tag/أداة) تقسيم الرموز BPE-16K أنها تنتج 40.2% [رموز](/tag/رموز) أقل مقارنة بالأداة المستخدمة في [GPT](/tag/gpt)-4، مما يعكس خطوة [نحو](/tag/نحو) [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) في [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) المستقبلية. يبدو أن مجموعة SomaliWeb تقدم إمكانيات كبيرة للبحث والتطوير في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) باللغة الصومالية.
ما رأيكم في هذه الطفرة الجديدة؟ هل تتوقعون أن تسهم في المزيد من [التطبيقات](/tag/التطبيقات) [العملية](/tag/العملية) في المستقبل؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!
الطفرة الجديدة للغة الصومالية: تقديم مجموعة بيانات SomaliWeb v1 المحسّنة!
تم إطلاق مجموعة بيانات SomaliWeb v1، وهي قاعدة بيانات صومالية مفلترة ذات جودة عالية تضم أكثر من 800 ألف مستند. هذا الإنجاز يعزز من أداء نماذج الذكاء الاصطناعي في التعامل مع اللغة الصومالية، مما يفتح آفاقاً جديدة للبحث والتقنية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
