تعتبر معالجة اللغات الطبيعية (Natural Language Processing) من أهم المجالات في الذكاء الاصطناعي، والآن أضيفت إنجازات جديدة في هذا المجال للغة السلوفاكية. يسرنا أن نقدم معيار SkMTEB، وهو أول معيار شامل لتقييم نماذج التضمين اللغوي (Text Embedding) للغة السلوفاكية، والتي تُعتبر من اللغات السلوفاكية الغربية ذات الموارد المحدودة.

يحتوي معيار SkMTEB على 31 مجموعة بيانات موزعة عبر 7 أنواع من المهام، ما يقارب 4 مرات عمق التغطية المتاحة سابقًا، مما يمنح العلماء والباحثين قاعدة قوية لتطوير أبحاثهم.

من خلال تقييم 31 نموذج تضمين، تبين أن النماذج متعددة اللغات المدربة على التعليمات (Instruction-tuned) تحقق أفضل أداءٍ، بينما لم تُظهر النماذج السلوفاكية المحددة المستخدمة لمهام فهم اللغة (NLU) نتائج جيدة في المهام المتعلقة بالتضمين.

في خطوة مبتكرة للتغلب على التحديات المتعلقة بنقص الموارد، قمنا بتطوير نموذجين مفتوحين المصدر، وهما e5-sk-small (45 مليون معلمة) وe5-sk-large (365 مليون معلمة)، باستخدام تقنيات مثل تقليص المفردات والتدريب الدقيق على نماذج E5 متعددة اللغات. وعلى الرغم من تقليص الحجم بنسبة تصل إلى 62%، فإن نماذجنا تحقق أداءً تنافسياً مع واجهات برمجة التطبيقات الخاصة (Proprietary APIs) بينما تظل قابلة للنشر محليًا في مجالات البحث الدلالي (Semantic Search) وتوليد المحتوى المعزز بالاسترجاع (Retrieval-Augmented Generation - RAG).

نحن متحمسون لإصدار هذا المعيار والنماذج والمجموعات التعليمية والكود بشكل مفتوح، على أمل أن تمثل منهجيتنا مسارًا يمكن تطبيقه على لغات أخرى ذات موارد محدودة.