في عالم يتزايد فيه الاعتماد على تقنيات التعرف على الصوت (Automatic Speech Recognition - ASR)، يتطلب بناء نماذج تنافسية عادةً إشرافاً على كميات كبيرة من البيانات الصوتية، مما يزيد من تكلفة الإنتاج والامتياز. لكن باحثين من جامعة بحثية قاموا بتطوير نموذج Ark-ASR، الذي يعد نموذجًا متقدمًا مكونًا من 0.6 مليار معلمة، تم تدريبه على 100,000 ساعة من الكلام.

يتناول البحث إمكانات استخدام تقنية "تقنية التقطير على السياسة" (On-Policy Distillation) من خلال معلم قوي في نموذج Qwen-ASR، حيث يتم تقييم قدرة النموذج في تحقيق تحسينات ملحوظة في أداء التعرف على الصوت. ومن خلال نتائج اختبارات اللغة الماندرينية والإنجليزية، أثبتت وصفة التدريب المقترحة تأثيرها الإيجابي على الأداء مقارنةً بالتدريب المشرف التقليدي.

تمكن الباحثون من تحقيق تحسينات كبيرة تعكس نتائج إيجابية في أربعة من خمسة مجموعات تقييم، وذلك باستخدام فقط 100,000 ساعة من البيانات، في حين أن النموذج المنافس Qwen3-Omni AuT يتطلب 20 مليون ساعة من البيانات. على الرغم من أن النموذج الأكبر Qwen3-ASR-1.7B يدل على أداء أقوى، إلا أن النتائج تشير بوضوح إلى أن التدريب الموجه من قبل المعلم يمكن أن يسد الفجوة بشكل كبير للنماذج المدمجة ضمن ميزانية صوتية أقل.

تشير التحليلات الإضافية إلى أن مرحلة المعلم والبيانات تساعد في تحسين التوافق بين الطالب والمعلم، مما يعزز من فعالية تقنية التقطير على السياسة. هذه النتائج تبشر بعصر جديد للتعرف على الصوت، حيث يمكن للنماذج الأصغر والأكثر كفاءة أن تقدم أداءً على مستوى النماذج الأضخم، مما يوفر في الموارد ويسهل من عمليات التخصيص في هذا المجال العائد بقوة من الأبحاث التقنية.