في عالم الذكاء الاصطناعي، تظل عملية تقييم سلامة نماذج اللغات الضخمة (Large Language Models) تتركز بشكل كبير على اللغة الإنجليزية، مما يعرض اللغات منخفضة الموارد مثل السومالية إلى نقص في التقييمات الدقيقة. ومن هنا جاءت أهمية دراسة جديدة عُرفت باسم SomaliBench، والتي تستعرض فجوات الاستجابة بين الإنجليزية والسومالية.

في هذه الدراسة، تم تقييم أربعة نماذج مفتوحة الوزن تم ضبطها على التعليمات، بما في ذلك Llama-3.1-8B-Instruct وGemma-2-9B-Instruct وQwen-2.5-7B-Instruct وAya-23-8B. لقد تم اختبار هذه النماذج باستخدام SomaliBench v0، وهو معيار موثوق تم التحقق منه من قبل مؤلف محلي، ويتضمن 100 طلب عقوبات ضارة مرتبطة باللغتين الإنجليزية والسومالية.

تم تشغيل النماذج محلياً مع ضبط درجة الحرارة على 0، مستخدمين نفس التحفيز من النظام والذي يعتبر "مفيد وغير ضار وصادق" (HHH). ووجد الباحثون فجوات كبيرة في الاستجابة بين الإنجليزية والسومالية حيث أظهرت جميع النماذج الأربعة معدلات رفض مرتفعة للطلبات المترجمة، حيث كان نموذج Llama-3.1-8B الأقل إرضاءً بنسبة رفض 90%، بينما جاء Gemma-2-9B في مؤخرة التقييم بنسبة 38%.

من المثير للاهتمام، أن معظم استجابات النموذج للسومالية لم تكن انسيابية أو مفيدة، بل كانت غالبًا غير واضحة، حيث كانت هناك استجابات فارغة أو بلغة خاطئة أو حتى توليدات غير مترابطة. هذه النتائج تدل على الحاجة المُلحة لتحسين نماذج الذكاء الاصطناعي لتكون أكثر تناسقاً وفعالية عند العمل مع لغات منخفضة الموارد.

خرجت الدراسة أيضًا بنتائج موثوقة للغاية، حيث توافق التحقق المحلي مع الحكم بنسبة 100% في 80 عينة مختارة. كل هذه البيانات والمعلومات تشير بقوة إلى أهمية الرصد المستمر والبحث في كيفية تحسين تقنيات الذكاء الاصطناعي لنماذج اللغات لكي تتجاوب بشكل أدق مع لغات متعددة.