في خطوة مهمة نحو تعزيز تجربة المستخدمين الناطقين باللغة الطاجيكية، تم الكشف عن 'سورو'، وهو عائلة من نماذج المحادثة اللغوية الكبيرة (Large Language Models) المتخصصة. تم تصميم هذا النموذج ليتماشى مع الاحتياجات الحقيقية في طاجيكستان، حيث تتطلب الظروف المحيطة كفاءة عالية تحت قيود قوية في القدرة الحاسوبية والاتصال بالإنترنت.

انطلق 'سورو' من نقاط التحقق السابقة المفتوحة لنموذج 'جما 3'، حيث تمت عملية تدريب متواصل باستخدام مجموعة بيانات ضخمة تتكون من 1.9 مليار رمز، تشمل نصوص الويب المفلترة والمستندات PDF والمواد التعليمية المتوافقة مع المناهج الدراسية. بعد ذلك، تم إجراء تدريب إشرافي باستخدام 40 ألف مثال بأسلوب معلمي الطاجيك.

ولضمان تقييم صارم للنموذج رغم نقص التغطية اللغوية للطاجيكية في المعايير القياسية، تم إدخال مجموعة من المعايير الخاصة بالطاجيكية تشمل المعرفة العامة، الكفاءة اللغوية، ومتطلبات الدخول للمدارس والجامعات. وقد أُطلق كل ذلك كمصدر مفتوح على منصة هاغينغ فيس (Hugging Face).

أثبت 'سورو' تفوقه في هذه المعايير مقابل نموذج 'جما 3' الذي يمتلك نفس الحجم، بينما حافظ على أدائه القوي في اللغة الإنجليزية داخل مجموعات البيانات القياسية. كما أظهر بحثنا أن تقنيات التكميم FP8 وINT4 لجهاز 'سورو' تحافظ على معظم مكاسب اللغة الطاجيكية بينما تقلل من متطلبات الذاكرة للنشر في الأجهزة الطرفية، دعماً لمشروع تجريبي مستمر في قطاع التعليم وتوسيع مخططه عبر المدارس في طاجيكستان.

ما رأيكم في دور الذكاء الاصطناعي في تعزيز التعليم في العالم العربي؟ شاركونا في التعليقات.