في خطوة هامة نحو تعزيز استخدام اللغة الصومالية في مجالات الذكاء الاصطناعي، تم الإعلان عن إطلاق مجموعة بيانات SomaliWeb v1. تُعد اللغة الصومالية واحدة من اللغات الكوشية في القرن الإفريقي، ويتحدث بها حوالي 25 مليون شخص، إلا أنه لم يكن هناك حتى الآن مجموعة بيانات مخصصة تسمح بتدريب نماذج الذكاء الاصطناعي بشكل فعّال.

تتكون مجموعة SomaliWeb v1 من 819,322 مستنداً، مما يعادل حوالي 303 مليون رمز، وقد تم إنشاؤها من مصادر ثلاثية موثوقة تشمل HPLT v2، CC100، وموسوعة الصومال على ويكيبيديا. وقد استخدمت عملية تطوير مكونة من ست مراحل لضمان جودة البيانات وموثوقيتها.

بجانب المجموعة، تم توفير أداة تقسيم الرموز (tokenizer) BPE-16K المطابقة، بالإضافة إلى أول مقياس علني لمقارنة ثلاثة متعرفات (language identifiers) للغة الصومالية.

من الملاحظ أن البيانات الحالية قد احتوت على عيوب نوعية ملحوظة، حيث أظهرت القياسات أن الإصدار "المُنظف" من HPLT v2 يحتفظ بـ 17.3% من النسخ المقدمة، و56.1% من الوثائق بها مشاكل يمكن تصحيحها، بينما 10.7% منها تعتبر مستندات مشابهة تقريبًا.

كما يكشف استخدام أداة تقسيم الرموز BPE-16K أنها تنتج 40.2% رموز أقل مقارنة بالأداة المستخدمة في GPT-4، مما يعكس خطوة نحو تحسين الأداء في النماذج اللغوية المستقبلية. يبدو أن مجموعة SomaliWeb تقدم إمكانيات كبيرة للبحث والتطوير في مجال الذكاء الاصطناعي باللغة الصومالية.

ما رأيكم في هذه الطفرة الجديدة؟ هل تتوقعون أن تسهم في المزيد من التطبيقات العملية في المستقبل؟ شاركونا آراءكم في التعليقات!