في عالم معالجة اللغة الطبيعية (NLP)، تعد مجموعات البيانات عالية الجودة ضرورية لتعزيز تقنيات الفهم اللغوي. نقدم لكم اليوم نموذج "نوربيرتو"، الذي يعد تطوراً مثيراً في معالجة اللغة البرتغالية. يعتمد نوربيرتو على بنية ModernBERT المتقدمة، ويتميز بدعمه للسياقات الطويلة وآليات الانتباه الفعالة.

تم تدريب نوربيرتو على مجموعة بيانات جديدة تُعرف باسم Aurora-PT، التي تحتوي على 331 مليار رمز من نماذج GPT-2، تم جمعها من مجموعة متنوعة من المصادر عبر الشبكة. نحن فخورون بالإعلان عن أن نوربيرتو يتفوق على النماذج السابقة مثل BERTimbau وAlbertina PT-BR، ليس فقط من حيث الحجم بل من حيث الأداء أيضاً.

تم إجراء مقارنة شاملة لنوربيرتو مع نماذج أساسية قوية في مهام مثل التشابه الدلالي والالتزام النصي والتصنيف. على سبيل المثال، حقق نموذج نوربيرتو-large أعلى النتائج على بيانات PLUE، حيث سجل 0.9191 في مستوى F1 على مجموعة MRPC و0.7689 في الدقة على RTE. كذلك، أكسبته نتائج مدهشة في مجموعة ASSIN 2، حيث كانت نتائج الفهم بين النماذج الأخرى التي تم تقييمها.

تعتبر مجموعة بيانات Aurora-PT حالياً أكبر مجموعة بيانات أحادية اللغة مفتوحة الوصول باللغة البرتغالية، متفوقةً بذلك على الموارد السابقة. إضافة إلى ذلك، يوفر نوربيرتو نموذجاً حديثاً ومتوسط الحجم، مما يجعله مثالياً لنشر حلول معالجة اللغة الطبيعية باللغة البرتغالية. يمكن تعديله بسهولة، ويعمل بكفاءة، مما يجعله ركيزة قوية لتوليد البيانات المعززة للاسترجاع وأنظمة NLP البرتغالية الأخرى.

إنه بالفعل وقت مثير لتكنولوجيا الذكاء الاصطناعي في البرتغال، فهل أنتم مستعدون للكشف عن الإمكانيات المذهلة التي يحملها نموذج نوربيرتو؟ شاركونا آرائكم في التعليقات!