في عالم يتطور بسرعة تكنولوجياً، لا يزال التعرف التلقائي على الكلام (ASR) يواجه عقبات في بيئات العالم الحقيقي، حيث تعاني النماذج من ما يُعرف بقيد "الصلابة الصوتية". تُعتبر هذه العوائق العقبة الرئيسية التي تمنع النماذج من تحقيق أداء متميز تحت ظروف معقدة أو مشوشة، وغالباً ما تؤدي إلى فقدان بيانات صوتية أو إنتاج معلومات خاطئة. \n\nهنا يأتي دور ميغا-أي إس أر (Mega-ASR)، الإطار الجديد الذي يجمع بين إنشاء بيانات مركبة على نطاق واسع وتحسين تدريجي من الصوت إلى المعنى، مما يفتح المجال لتعزيز دقة التعرف في ظروف صعبة. \n\nقدم الباحثون مبادرة جريئة من خلال بيانات Voices-in-the-Wild-2M، التي تغطي سبع ظواهر صوتية كلاسيكية و54 سيناريو مركب يمكن تطويره بشكل واقعي. تم تدريب ميغا-أي إس أر باستخدام تقنيات متطورة، مثل "التحسين البؤري المزدوج" و"تعديل دقة البيانات"، مما يعكس خطوة هائلة نحو تحقيق نظام التعرف على الكلام المدعوم بتكنولوجيا متطورة. \n\nأظهرت التجارب الواسعة أن نظام ميغا-أي إس أر يتفوق بشكل كبير على الأنظمة السابقة، حيث أظهر تحسناً ملحوظاً بنسبة 45.69% مقابل 54.01% على معيار VOiCES R4-B-F، وبنسبة 21.49% مقابل 29.34% على معيار NOIZEUS Sta-0. وفي السيناريوهات الصوتية المركبة المعقدة، حقق ميغا-أي إس أر انخفاضًا يزيد عن 30% في نسبة الأخطاء مقارنة بنقاط البيانات القوية من المصادر المفتوحة والمغلقة، مما يؤسس لنموذج قابل للتوسع يهدف إلى تحسين التعرف الصوتي في البيئات الحقيقية.