في عالم الذكاء الاصطناعي، يعد التعرف على عواطف المتحدثين من الكلام موضوعًا مهمًا يتطلب جهودًا كبيرة، خصوصًا في اللغة العربية. بينما حققت تقنيات التعلم العميق (Deep Learning) تقدمًا ملحوظًا في اللغات الهند-أوروبية، إلا أن التحديات تزداد عند التعامل مع اللغة العربية لأسباب عدة منها تنوع اللهجات ووجود بيانات محدودة.

في هذا السياق، أظهرت الدراسة الجديدة كيف يمكن استخدام نماذج هجينة تجمع بين المعلومات المكانية والسياقية لتحسين التعرف على العواطف في الكلام العربي. تم تطوير إطار مقارن يتضمن ثلاث بنايات: نموذج (CNN-LSTMنموذج (CNN-Transformer)، ونموذج (wav2vec 2.0) المحسن.

يعتمد النموذجان الأولان على تمثيلات قائمة على MFCC وSpectrogram، بينما يعتمد نموذج (wav2vec 2.0) مباشرة على الصوت الخام باستخدام تمثيلات ذات إشراف ذاتي (Self-supervised).

أظهرت التجارب التي أجريت على مجموعتي بيانات EYASE وBAVED أن بنية (CNN-Transformer) تتفوق بشكل ملحوظ على النماذج الأخرى، حيث حققت دقة تصل إلى 98.1%. هذا الإنجاز يبرز فعالية دمج استخراج الميزات بالاعتماد على عمليات Convolution مع نمذجة السياق العالمي باستخدام تقنيات Transformer.

لذا، يجعل هذا البحث من المرجح أن تكون نماذج (CNN-Transformer) هي الحل القوي في مجال التعرف على المشاعر في بيئات ذات موارد محدودة وتنوع لهجات مرتفع. هل أنتم متحمسون لهذه التطورات في مجالات التعلم العميق والتعرف على العواطف؟ شاركونا آراءكم في التعليقات!