في خطوة هامة [نحو](/tag/نحو) تعزيز استخدام [اللغة الصومالية](/tag/[اللغة](/tag/اللغة)-الصومالية) في مجالات الذكاء الاصطناعي، تم الإعلان عن إطلاق [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) SomaliWeb v1. تُعد [اللغة الصومالية](/tag/[اللغة](/tag/اللغة)-الصومالية) واحدة من [اللغات](/tag/اللغات) الكوشية في القرن الإفريقي، ويتحدث بها حوالي 25 مليون شخص، إلا أنه لم يكن هناك حتى الآن [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) مخصصة تسمح بتدريب [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) بشكل فعّال.

تتكون مجموعة SomaliWeb v1 من 819,322 مستنداً، مما يعادل حوالي 303 مليون رمز، وقد تم إنشاؤها من مصادر ثلاثية موثوقة تشمل HPLT v2، CC100، وموسوعة الصومال على [ويكيبيديا](/tag/ويكيبيديا). وقد استخدمت عملية [تطوير](/tag/تطوير) مكونة من ست مراحل لضمان [جودة البيانات](/tag/جودة-[البيانات](/tag/البيانات)) وموثوقيتها.

بجانب المجموعة، تم توفير [أداة](/tag/أداة) تقسيم الرموز (tokenizer) BPE-16K المطابقة، بالإضافة إلى أول مقياس علني لمقارنة ثلاثة متعرفات (language identifiers) للغة الصومالية.

من الملاحظ أن [البيانات](/tag/البيانات) الحالية قد احتوت على عيوب نوعية ملحوظة، حيث أظهرت القياسات أن الإصدار "المُنظف" من HPLT v2 يحتفظ بـ 17.3% من النسخ المقدمة، و56.1% من الوثائق بها مشاكل يمكن تصحيحها، بينما 10.7% منها تعتبر مستندات مشابهة تقريبًا.

كما يكشف استخدام [أداة](/tag/أداة) تقسيم الرموز BPE-16K أنها تنتج 40.2% [رموز](/tag/رموز) أقل مقارنة بالأداة المستخدمة في [GPT](/tag/gpt)-4، مما يعكس خطوة [نحو](/tag/نحو) [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) في [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) المستقبلية. يبدو أن مجموعة SomaliWeb تقدم إمكانيات كبيرة للبحث والتطوير في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) باللغة الصومالية.

ما رأيكم في هذه الطفرة الجديدة؟ هل تتوقعون أن تسهم في المزيد من [التطبيقات](/tag/التطبيقات) [العملية](/tag/العملية) في المستقبل؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!