ظهر مع BERTomelo، نموذج ترميز اللغة البرتغالية المتطور، الذي يعد تمهيدًا لعصر جديد في معالجة اللغة الطبيعية. يواجه هذا النموذج الجديد تحديات النماذج السابقة، مثل BERTimbau وAlbertina، التي لم تتمكن من مواكبة التطورات المعمارية الأخيرة، لا سيما في مجالات قابلية التوسع والكفاءة.

يعمل BERTomelo الذي تم تدريبه من الصفر على الاستفادة من بنية ModernBERT، مما يجعله يتفوق في الأداء على النماذج التقليدية. يقدم هذا النموذج إصدارين: Base وLarge، مع نافذة سياقية تصل إلى 1,024 رمزًا، اعتمادًا على تحسينات مذهلة مثل تقنيات FlashAttention وآليات الانتباه المتناوب.

لقد تم تدريب BERTomelo على مجموعة ClassiCC-PT، وهي مجموعة ضخمة من الوثائق البرتغالية عالية الجودة تضم 106 مليون مستند، مما يضمن توافقًا كبيرًا مع الاستخدامات المعاصرة للغة البرتغالية. ولقد أظهرت النتائج أن BERTomelo لا يتفوق فقط على النماذج السابقة، بل يقدم أيضًا بديلاً أكثر قوة وكفاءة للنماذج متعددة اللغات الضخمة في المهام اللاحقة مثل STS (معدلات التشابه النصي) وNER (التعرف على الكيانات المسماة).

في ختام هذا العرض التقديمي للابتكارات المذهلة في ميدان الذكاء الاصطناعي، يتضح أن BERTomelo ليس مجرد نموذج جديد، بل خطوة متقدمة نحو تحقيق مستقبل مشرق لمعالجة اللغة الطبيعية في البرتغالية.