IHUBERT: قفزة نوعية في نمذجة اللغة الفارسية باستخدام تقنيات متطورة!

Q: ما هو موضوع مقال "IHUBERT: قفزة نوعية في نمذجة اللغة الفارسية باستخدام تقنيات متطورة!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "IHUBERT: قفزة نوعية في نمذجة اللغة الفارسية باستخدام تقنيات متطورة!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي، تُعد نماذج اللغة الفارسية (Persian Pretrained Language Models - PLMs) من النماذج التي تحتاج إلى دعم مستمر لتحقيق التقدم. ولكن مع دخول IHUBERT إلى الساحة، يبدو أن الأمور تغيرت.

IHUBERT هو نموذج لغة فارسي أحادي اللغة تم تدريبه من الصفر باستخدام محرك RoBERTa-base، والذي يضم 125 مليون معلمة. تم تدريب هذا النموذج على مجموعة بيانات منسقة تصل حجمها إلى 45 جيجابايت، وهي جزء من مجموعة Sepahr-Danesh التي تحتوي على حوالي 7-8 مليار رمز.

لكن ما يُميز IHUBERT حقًا هو استخدامه لخط أنابيب معالجة متعدد المراحل. يبدأ ذلك من تطبيع البيانات، ويشمل أيضًا إزالة التكرارات الدقيقة والقريبة، وإجراء التعتيم، واستخدام تقنية الحذف الدلالي القائم على قواعد البيانات. هذا يساعد IHUBERT على تحقيق توازن توزيع بين المجالات والفئات.

وتم تصميم مُجزئ BPE (Byte Pair Encoding) الخاص بالنموذج ليكون أكثر فعالية في التقاط تركيب الفارسية وتنوعها الهجائي، حيث تم تدريبه على مجموعة البيانات بالكامل.

تُظهر نتيجة IHUBERT على سبعة معايير لتقييم اللغة الفارسية تقدمًا ملحوظًا في مهام مثل التعرف على الكيانات (NER)، وتحليل المشاعر، وتصنيف المواضيع، وأنظمة فهم اللغة الطبيعية (NLI)، بالإضافة إلى الإجابة على الأسئلة الاستنتاجية والاستخراج.

حقق IHUBERT نتائج رائعة، حيث جاء في المرتبة الأولى في عدة اختبارات مثل PQuAD وParsiNLU-RC. كما أظهر أداءً تنافسيًا في مجالات أخرى مثل التعرف على الكيانات، بينما لا يزال لديه بعض الفجوات في استخراج العلاقات.

باختصار، يساهم IHUBERT بشكل كبير في تحسين نمذجة اللغة الفارسية من خلال تدريب واسع النطاق مع تقييم شامل لمهام متعددة، ليكون نقطة انطلاق جديدة للباحثين والمطورين في هذا المجال.

IHUBERT: قفزة نوعية في نمذجة اللغة الفارسية باستخدام تقنيات متطورة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!

في أعقاب ثورة الذكاء الاصطناعي: Vercel تستعد للطرح العام بفضل زيادة الإيرادات

من نماذج اللغات الضخمة إلى الهلوسات: دليلك الشامل لأهم مصطلحات الذكاء الاصطناعي!