في عالم الذكاء الاصطناعي، تُعد نماذج اللغة الفارسية (Persian Pretrained Language Models - PLMs) من النماذج التي تحتاج إلى دعم مستمر لتحقيق التقدم. ولكن مع دخول IHUBERT إلى الساحة، يبدو أن الأمور تغيرت.
IHUBERT هو نموذج لغة فارسي أحادي اللغة تم تدريبه من الصفر باستخدام محرك RoBERTa-base، والذي يضم 125 مليون معلمة. تم تدريب هذا النموذج على مجموعة بيانات منسقة تصل حجمها إلى 45 جيجابايت، وهي جزء من مجموعة Sepahr-Danesh التي تحتوي على حوالي 7-8 مليار رمز.
لكن ما يُميز IHUBERT حقًا هو استخدامه لخط أنابيب معالجة متعدد المراحل. يبدأ ذلك من تطبيع البيانات، ويشمل أيضًا إزالة التكرارات الدقيقة والقريبة، وإجراء التعتيم، واستخدام تقنية الحذف الدلالي القائم على قواعد البيانات. هذا يساعد IHUBERT على تحقيق توازن توزيع بين المجالات والفئات.
وتم تصميم مُجزئ BPE (Byte Pair Encoding) الخاص بالنموذج ليكون أكثر فعالية في التقاط تركيب الفارسية وتنوعها الهجائي، حيث تم تدريبه على مجموعة البيانات بالكامل.
تُظهر نتيجة IHUBERT على سبعة معايير لتقييم اللغة الفارسية تقدمًا ملحوظًا في مهام مثل التعرف على الكيانات (NER)، وتحليل المشاعر، وتصنيف المواضيع، وأنظمة فهم اللغة الطبيعية (NLI)، بالإضافة إلى الإجابة على الأسئلة الاستنتاجية والاستخراج.
حقق IHUBERT نتائج رائعة، حيث جاء في المرتبة الأولى في عدة اختبارات مثل PQuAD وParsiNLU-RC. كما أظهر أداءً تنافسيًا في مجالات أخرى مثل التعرف على الكيانات، بينما لا يزال لديه بعض الفجوات في استخراج العلاقات.
باختصار، يساهم IHUBERT بشكل كبير في تحسين نمذجة اللغة الفارسية من خلال تدريب واسع النطاق مع تقييم شامل لمهام متعددة، ليكون نقطة انطلاق جديدة للباحثين والمطورين في هذا المجال.
IHUBERT: قفزة نوعية في نمذجة اللغة الفارسية باستخدام تقنيات متطورة!
لطالما كانت نماذج اللغة الفارسية تعاني من نقص الموارد، لكن مع ظهور IHUBERT، لم يعد ذلك عائقًا! تعرّف على كيف تمكنت هذه النموذج من تحسين الأداء في مهام معالجة اللغة الطبيعية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
