ثورة في التعرف على الكلام المرئي: نموذج اللغة الضخمة القائم على الانتشار

Q: ما هو موضوع مقال "ثورة في التعرف على الكلام المرئي: نموذج اللغة الضخمة القائم على الانتشار"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "ثورة في التعرف على الكلام المرئي: نموذج اللغة الضخمة القائم على الانتشار" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي، تعتبر تقنية التعرف على الكلام المرئي (Visual Speech Recognition - VSR) واحدة من الإبداعات التي تمكننا من تحويل الإشارات البصرية إلى نصوص بطريقة فعالة. ولكن، كانت معظم الأنظمة المستخدمة حتى الآن تعتمد على استراتيجيات تقليدية مرتبطة بالتشفير التلقائي من اليسار إلى اليمين، مما قد يؤدي إلى عمليات اتخاذ قرارات مبكرة على رموز بصرية غير واضحة قبل توفر المعلومات السياقية الكافية.

هنا تبرز قوة نموذج اللغة الضخم القائم على الانتشار (Diffusion Large Language Model - DLLM)، وهو الإطار الجديد المقترح، الذي يستهدف تحسين هذه العمليات. يُعرف هذا النموذج بأنه الأول من نوعه في دمج تقنيات التعلم العميق عبر أساليب مثل إلغاء الضجيج بطريقة متكررة مع تشفير مرن.

تتميز تقنية DLLM-VSR بالتزامها بمواقع عالية الثقة مبكرًا، مما يتيح لها استخدام الرموز التي تم تحديدها كخلفية ثنائية الاتجاه لتحسين الرموز الغامضة. ومن أجل تكييف نماذج DLLM مع VSR، تم تقديم استراتيجية تدريب مكونة من مرحلتين تفصل بين محاذاة المحتوى البصري والنمذجة الطولية.

أيضًا، تم ملاحظة وجود فجوة في الأداء مع فك تشفير الطول المعتمد على الأكواد، مما يشير إلى أن تقليل عدم اليقين في طول الهدف يمكن أن يحسن أداء VSR مع نماذج DLLM. من أجل تقليل هذه الفجوة، تم تطوير أسلوب فك التشفير المدعوم بالطول، والذي يستخدم مدة الفيديو لبناء افتراضات طولية محتملة للنص.

من المثير للاهتمام أن الطريقة الجديدة حققت دقة رائدة بنسبة 19.5% في معدل الأخطاء (Word Error Rate - WER) على مجموعة بيانات LRS3 باستخدام بيانات التدريب المعلَّمة فقط. هذا الإنجاز يمثل خطوة كبيرة نحو تحسين تقنية التعرف على الكلام المرئي واستخدامها في المزيد من التطبيقات الحياتية.

ثورة في التعرف على الكلام المرئي: نموذج اللغة الضخمة القائم على الانتشار

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

جوجل تضيف مهارات الذكاء الاصطناعي إلى كروم: احتفظ بتجاربك المفضلة بذكاء!

قفزة مذهلة: شركة Allbirds تتحول نحو الذكاء الاصطناعي بعد بيع أعمالها في صناعة الأحذية!

رؤية صناعية ثورية لعصر الذكاء الاصطناعي: فرصة للجميع!