نمو modelos اللغات الضبابية: ثورة جديدة في التعرف على الكلام
تسعى نماذج اللغات الضبابية (Diffusion Language Models) لتحقيق تطور ملموس في مجال التعرف على الكلام، حيث تقدم تقنيات جديدة تعزز دقة الأداء. تعرف على كيفية دمج هذه النماذج للحصول على نتائج مذهلة!
في الآونة الأخيرة، ظهرت نماذج اللغات الضبابية (Diffusion Language Models) كبديل قوي للنماذج اللغوية التقليدية، وذلك لقدرتها على تحقيق انتباه ثنائي الاتجاه (bidirectional attention) وإنتاج نصوص بشكل متوازي (parallel text generation). في هذا المقال، نستعرض كيفية استخدامها في مجال التعرف على الكلام (Speech Recognition) ونتناول عدة تقنيات حديثة.
نقدم دليلاً شاملاً لدمج نماذج اللغات الضبابية المُخ masked diffusion language models (MDLM) ونماذج الضبابية بحالة موحدة (uniform-state diffusion models – USDMs) لاستعادة النقاط المحتملة التي تم تحديدها من خلال نظام التعرف على الكلام الآلي (ASR).
علاوة على ذلك، تم تصميم طريقة جديدة تدمج بين CTC وUSDM، من خلال دمج توزيعات الاحتمالات على مستوى الإطارات (framewise probability distributions) المشتقة من CTC، مع توزيعات الاحتمالات المعتمدة على الملصقات (labelwise probability distributions) المحسوبة بواسطة USDM في كل خطوة من خطوات التفكيك، مما يؤدي إلى توليد مرشحات جديدة تجمع بين المعرفة اللغوية القوية من USDM والمعلومات الصوتية من CTC.
تؤكد نتائج بحثنا أن كلا من USDM وMDLM يمكن أن يحسنا بشكل كبير من دقة النص المعترف به. نحن حريصون على مشاركة كافة الشيفرات والوصفات الخاصة بنا مع الجمهور للتأكيد على أهمية التطورات المستمرة في هذا المجال الشيق.
نقدم دليلاً شاملاً لدمج نماذج اللغات الضبابية المُخ masked diffusion language models (MDLM) ونماذج الضبابية بحالة موحدة (uniform-state diffusion models – USDMs) لاستعادة النقاط المحتملة التي تم تحديدها من خلال نظام التعرف على الكلام الآلي (ASR).
علاوة على ذلك، تم تصميم طريقة جديدة تدمج بين CTC وUSDM، من خلال دمج توزيعات الاحتمالات على مستوى الإطارات (framewise probability distributions) المشتقة من CTC، مع توزيعات الاحتمالات المعتمدة على الملصقات (labelwise probability distributions) المحسوبة بواسطة USDM في كل خطوة من خطوات التفكيك، مما يؤدي إلى توليد مرشحات جديدة تجمع بين المعرفة اللغوية القوية من USDM والمعلومات الصوتية من CTC.
تؤكد نتائج بحثنا أن كلا من USDM وMDLM يمكن أن يحسنا بشكل كبير من دقة النص المعترف به. نحن حريصون على مشاركة كافة الشيفرات والوصفات الخاصة بنا مع الجمهور للتأكيد على أهمية التطورات المستمرة في هذا المجال الشيق.
📰 أخبار ذات صلة
🤖
نماذج لغوية
التفكير الجماعي في الذكاء الاصطناعي: LACE يغير قواعد اللعبة!
أركايف للذكاءمنذ 9 ساعة
🤖
نماذج لغوية
تحسين مهارات الوكلاء بثنائية المستويات عبر البحث بشجرة مونت كارلو: خطوة ثورية نحو الذكاء الاصطناعي الفعّال
أركايف للذكاءمنذ 9 ساعة
🤖
نماذج لغوية
هل يمكن لتقنيات الذاكرة أن تُحدث ثورة في ذكاء الوكلاء الاصطناعي؟
أركايف للذكاءمنذ 9 ساعة