في عالم متسارع نحو الابتكار، يسعى الباحثون إلى تطوير نماذج لغوية متعددة النماذج (Multimodal Models) يمكنها فهم وتوليد محتوى بصيغ مختلفة مثل الصوت والصورة. ولكن رغم التقدم الكبير، فإن دمج كفاءات النماذج اللغوية القائمة على فقرات مفهومية (LLMs) مع توليد حركة الوجه ثلاثية الأبعاد يعد تحديًا كبيرًا لم يتم استكشافه بشكل كافٍ. هنا يأتي دور نموذج إكس أومني (Ex-Omni)، كخطوة جديدة ومثيرة في هذا المجال.

يهدف نموذج إكس أومني إلى تجاوز الحدود التقليدية من خلال إدماج توليد الصوت مع حركة الوجه ثلاثية الأبعاد، مما يعزز التفاعل الطبيعي بين الإنسان والآلة. يعتمد النموذج على تقنية متقدمة تعرف بمولد وحدات الصوت المعتمد على أشكال الخلط (Blendshape-aware Speech Unit Generator) ومفسر أشكال الخلط (Blendshape Decoder) لتفكيك عملية التفكير المنطقي إلى مراحل زمنية دقيقة.

باستخدام آلية دمج تعتمد على الرموز كاستفسار (Token-as-Query Gated Fusion)، يقوم النموذج بالتحكم في تدفق المعلومات بطريقة مبتكرة، مما يساهم في تحسين الديناميكية الزمنية المطلوبة لتحركات الوجه. بالإضافة إلى ذلك، تم تطوير مجموعة بيانات ضخمة بعنوان InstructS2SF-1200K تحتوي على 1200 ألف نموذج للتدريب.

أظهرت التجارب أن إكس أومني يحافظ على قدرة تنافسية في فهم وتوليد الصوت، بينما يحقق مزيدًا من التزامن الصوتي البصري وتقليل فترة تأخير توليد الوجه مقارنة بالأنظمة المتسلسلة التقليدية.

إن هذا الابتكار يُعد خطوة جريئة نحو تحسين آليات التفاعل مع الآلات باستخدام التعلم العميق، ويفتح الباب لمستقبل حيث يصبح التواصل بين الإنسان والآلة أكثر طبيعية وسلاسة.