ابتكار ثوري في استخراج الصوت المستهدف: نموذج جديد لتطبيقات البث المباشر!

شهدت تقنيات استخراج الصوت المستهدف (Target Speaker Extraction) تطورًا كبيرًا بفضل نماذج الذكاء الاصطناعي التوليدية (Generative Models). ولكن، كانت هذه النماذج تعاني من صعوبة في تطبيقها في سيناريوهات البث المباشر بسبب اعتمادها على السياق العالمي، مما يؤدي أحيانًا إلى أداء ضعيف خلال عمليات الاستدلال، خصوصاً عند التكيف مع الظروف السريعة في البث.

لذا، يقدم الباحثون أول نماذج توليد ذاتية (Autoregressive Models) مصممة خصيصاً لتلبية احتياجات استخراج الصوت المستهدف في البث المباشر. الطريقة الجديدة، المعروفة باسم "Chunk-wise Interleaved Splicing Paradigm"، تتيح استدلالًا سريعًا وفعالًا مع الحفاظ على استقرار وأداء عالي.

وللتحكم في تماسك المقاطع الصوتية المستخرجة، تم تصميم آلية لتحسين السياق التاريخي تساعد في تقليل الانقطاعات عند الحدود من خلال الاستفادة من المعلومات السابقة.

أظهرت التجارب التي أُجريت على مجموعة بيانات Libri2Mix أن النماذج التوليدية السابقة تعاني من انخفاض في الأداء عند انخفاض الكمون، بينما نموذجنا الجديد حافظ على استقرار 100% وفهم ممتاز للصوت. بل إن نتائج البث لدينا كانت متفوقة في بعض الحالات مقارنةً بالأساليب التقليدية.

علاوة على ذلك، حقق نموذجنا عامل زمن حقيقي (Real-Time-Factor) يبلغ 0.248 على وحدات معالجة الرسوميات (GPUs) التي يستخدمها المستهلكون. تُظهر هذه الدراسة أن النماذج التوليدية الذاتية قادرة على التعامل مع التطبيقات التي تتطلب زمن استجابة قليل بفضل "Chunk-wise Interleaved Splicing Paradigm".

ابتكار ثوري في استخراج الصوت المستهدف: نموذج جديد لتطبيقات البث المباشر!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

هل تتعذر عليك الحصول على جهاز Mac Mini؟ تعرف على السبب وراء التأخير في التوريد!

هل يحدد OpenAI مستقبل الأمن السيبراني؟ الكشف عن أداة GPT-5.5 Cyber المبتكرة!

إيلون ماسك يكشف السر: كيف قامت xAI بتدريب Grok باستخدام نماذج OpenAI!