في عالم الذكاء الاصطناعي، تعتبر تقنية التعرف على الكلام المرئي (Visual Speech Recognition - VSR) واحدة من الإبداعات التي تمكننا من تحويل الإشارات البصرية إلى نصوص بطريقة فعالة. ولكن، كانت معظم الأنظمة المستخدمة حتى الآن تعتمد على استراتيجيات تقليدية مرتبطة بالتشفير التلقائي من اليسار إلى اليمين، مما قد يؤدي إلى عمليات اتخاذ قرارات مبكرة على رموز بصرية غير واضحة قبل توفر المعلومات السياقية الكافية.
هنا تبرز قوة نموذج اللغة الضخم القائم على الانتشار (Diffusion Large Language Model - DLLM)، وهو الإطار الجديد المقترح، الذي يستهدف تحسين هذه العمليات. يُعرف هذا النموذج بأنه الأول من نوعه في دمج تقنيات التعلم العميق عبر أساليب مثل إلغاء الضجيج بطريقة متكررة مع تشفير مرن.
تتميز تقنية DLLM-VSR بالتزامها بمواقع عالية الثقة مبكرًا، مما يتيح لها استخدام الرموز التي تم تحديدها كخلفية ثنائية الاتجاه لتحسين الرموز الغامضة. ومن أجل تكييف نماذج DLLM مع VSR، تم تقديم استراتيجية تدريب مكونة من مرحلتين تفصل بين محاذاة المحتوى البصري والنمذجة الطولية.
أيضًا، تم ملاحظة وجود فجوة في الأداء مع فك تشفير الطول المعتمد على الأكواد، مما يشير إلى أن تقليل عدم اليقين في طول الهدف يمكن أن يحسن أداء VSR مع نماذج DLLM. من أجل تقليل هذه الفجوة، تم تطوير أسلوب فك التشفير المدعوم بالطول، والذي يستخدم مدة الفيديو لبناء افتراضات طولية محتملة للنص.
من المثير للاهتمام أن الطريقة الجديدة حققت دقة رائدة بنسبة 19.5% في معدل الأخطاء (Word Error Rate - WER) على مجموعة بيانات LRS3 باستخدام بيانات التدريب المعلَّمة فقط. هذا الإنجاز يمثل خطوة كبيرة نحو تحسين تقنية التعرف على الكلام المرئي واستخدامها في المزيد من التطبيقات الحياتية.
ثورة في التعرف على الكلام المرئي: نموذج اللغة الضخمة القائم على الانتشار
تقدم تقنية التعرف على الكلام المرئي (VSR) تحولات هائلة باستخدام نموذج اللغة الضخمة القائم على الانتشار (DLLM). هذه التقنية الجديدة تعالج القيود التقليدية للنماذج السابقة عبر استراتيجيات تحسين متطورة لتحسين الدقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
