شهدت تقنيات استخراج الصوت المستهدف (Target Speaker Extraction) تطورًا كبيرًا بفضل نماذج الذكاء الاصطناعي التوليدية (Generative Models). ولكن، كانت هذه النماذج تعاني من صعوبة في تطبيقها في سيناريوهات البث المباشر بسبب اعتمادها على السياق العالمي، مما يؤدي أحيانًا إلى أداء ضعيف خلال عمليات الاستدلال، خصوصاً عند التكيف مع الظروف السريعة في البث.

لذا، يقدم الباحثون أول نماذج توليد ذاتية (Autoregressive Models) مصممة خصيصاً لتلبية احتياجات استخراج الصوت المستهدف في البث المباشر. الطريقة الجديدة، المعروفة باسم "Chunk-wise Interleaved Splicing Paradigm"، تتيح استدلالًا سريعًا وفعالًا مع الحفاظ على استقرار وأداء عالي.

وللتحكم في تماسك المقاطع الصوتية المستخرجة، تم تصميم آلية لتحسين السياق التاريخي تساعد في تقليل الانقطاعات عند الحدود من خلال الاستفادة من المعلومات السابقة.

أظهرت التجارب التي أُجريت على مجموعة بيانات Libri2Mix أن النماذج التوليدية السابقة تعاني من انخفاض في الأداء عند انخفاض الكمون، بينما نموذجنا الجديد حافظ على استقرار 100% وفهم ممتاز للصوت. بل إن نتائج البث لدينا كانت متفوقة في بعض الحالات مقارنةً بالأساليب التقليدية.

علاوة على ذلك، حقق نموذجنا عامل زمن حقيقي (Real-Time-Factor) يبلغ 0.248 على وحدات معالجة الرسوميات (GPUs) التي يستخدمها المستهلكون. تُظهر هذه الدراسة أن النماذج التوليدية الذاتية قادرة على التعامل مع التطبيقات التي تتطلب زمن استجابة قليل بفضل "Chunk-wise Interleaved Splicing Paradigm".