في عالم تكنولوجيا الصوت، يمثل فصل الكلام متعدد القنوات (Multi-Channel Speech Separation) خطوة مهمة في تطوير نظم الذكاء الاصطناعي. وبينما نجحت النماذج التمييزية في إثبات كفاءتها عبر مقاييس مرجعية، فإن الجودة الصوتية عند الاستماع البشري لا تزال تشكل تحدياً كبيراً. هنا يأتي دور المُصحي الجديد MeCo.

صُمم MeCo باستخدام نموذج قائم على تيار متوسط (MeanFlow) لتقديم تصحيح فوري، حيث يتعلم هذا النظام حقل متوسط سرعة شرطي ليتوافق مع الكلام النظيف. وبطريقة مبتكرة، يقوم MeCo بتحويل التقديرات غير الدقيقة مباشرةً إلى الجودة المطلوبة دون الحاجة لعمليات معقدة.

وتم تقديم تقنية جديدة تُعرف بتحسين بيانات الفضاء (Data-Space Optimization أو DSO)، والتي تعمل على تقليل الأخطاء في توقعات التقديرات عبر فترات إزاحة أطول، مما يساعد في تعزيز جودة الاستماع للمستخدم. بالإضافة إلى ذلك، ألحقوا خسارة SI-SDR في النهاية (Endpoint SI-SDR loss) لتحسين مخرجات الإشارة في النهاية.

تظهر التجارب أن أداء MeCo يحقق إنجازات استثنائية مع استهلاك منخفض للموارد الحاسوبية، حيث يوفر توازناً رائعاً بين جودة الإشارة الفائقة وتجربة الاستماع الممتازة سواء في المجالات الفردية أو المتنوعة. إن MeCo ليس مجرد مُصحي صوتي، بل إنه يعد ثورة في كيفية تعاملنا مع الصوت والنظام السمعي بصفة عامة.