تعتبر معدلات الإطار المنخفضة (Low Frame Rates) في ترميزات الصوت العصبي (Neural Audio Codecs) جذابة جداً، خاصةً في سياق توليد الكلام التلقائي (Autoregressive Speech Synthesis)، حيث يمثل تخفيض تكاليف الإنتاج خطوة هامة. وقد أظهرت الأبحاث الأخيرة أن هذه الترميزات يمكن أن تعمل بمعدل 12.5 هرتز وأقل، ولكن ما يتعلق بآليات تدهور الجودة عند هذه المعدلات ما زالت غير مفهومة بشكل كامل.

في دراسة حديثة، تم استكشاف آليات هذا التدهور من خلال إجراء تجارب دقيقة على معدلات الإطار المنخفض. وقد تمكن الباحثون من إعادة إنتاج "منحدر الجودة" (Quality Cliff) عند معدل 6.25 هرتز، والذي تم الإبلاغ عنه في أعمال سابقة. كما قاموا بتقييم تفسيرات محتملة، مثل تصادم الأصوات (Phonemic Collisions) وتشبع كتاب الرموز (Codebook Saturation)، غير أن هذه التفسيرات لم تثبت وجود عائق أساسي.

بدلاً من ذلك، تم تحديد أن السبب وراء هذا الانحدار يعود إلى تكوين تدريب غير مثالي، حيث يؤدي استخدام مدة ثابتة للقطع (Fixed Clip Duration) أثناء التدريب إلى إنتاج عدد قليل جداً من الرموز عند معدلات الإطار المنخفضة، مما يحرم الديكودر (Decoder) من السياق المطلوب بين الرموز. وعند تصحيح هذا السبب، أظهرت النتائج أن معدل الأخطاء في الكلمات (Word Error Rate) يتدهور بسلاسة مع تزايد الحمل الصوتي (Phonemic Load) حتى معدلات 3.1 هرتز و1.6 هرتز.

هذا ي sugggests أن مكاسب الكفاءة في وقت الاستدلال باستخدام ترميزات الصوت العصبي ذات معدلات الإطار المنخفضة قد تكون أكثر سهولة في التحقق مما كان يُعتقد سابقاً.