في عالم الترجمة الفورية، تعتبر التحديات التي تواجه تقنيات تحويل الكلام إلى نص (SimulST) متعددة. عُرفت هذه التقنية بإمكانية توفير ترجمات في الوقت الفعلي بينما يستمر الحديث، ما يتطلب وجود سياسة ذكية تحدد متى يجب القراءة ومتى يتعين الكتابة. وكانت النماذج الأكثر تقدمًا تعتمد في الأساس على هياكل مشروطة على المدخلات (encoder-decoder) تستخدم آليات الانتباه المتقاطع لتوفير إشارات محاذاة دقيقة.

لكن في ظل ظهور نماذج اللغة الكبيرة (Speech Large Language Models)، التي تعتمد فقط على مبدأ الانتباه الذاتي (self-attention)، انتبه الباحثون إلى سؤال محوري: هل تحتوي إشارات الانتباه الذاتي على كفاية من الاستقرار لتوجيه سياسات الترجمة الفورية؟

العائق الآخر أمام هذه التقنيات هو اعتمادها على تعديلات مبنية على التدريب أو على سياسات الانتظار الجاهزة (heuristic wait-$k$) التي لم يتم اختبارها بعد في الإعدادات الطويلة. لمواجهة هذه الفجوات، قدم الباحثون سياسة جديدة تُسمى "سياسة الانتباه فقط (DOA)"، والتي لا تتطلب تدريبًا، وتتيح الترجمة الفورية الطويلة باستخدام نماذج اللغة الكبيرة المتاحة.

تتركز فكرة DOA على استخراج محاذاة بديلة تعتمد على الانتباه الذاتي. وقد أثبتت التجارب على مجموعات بيانات Phi4-Multimodal وQwen3-Omni أن هذه السياسة توفر إشارة محاذاة فعالة تدعم قرارات البث المباشر، مما يتيح تحقيق ترجمات فورية طويلة بأقل زمن تأخير وبجودة قريبة من ناتج العمليات التقليدية.