تشهد تقنيات التعرف على الكلام (ASR) تطورًا ملحوظًا في دعم اللغات ذات الموارد المحدودة، وفي هذا الصدد، تم تقديم Vividh-ASR كمرجع جديد يهدف إلى تحسين أداء هذه الأنظمة في اللغات مثل الهندية والملاوية. يواجه المطورون تحديًا كبيرًا عند ضبط نماذج متعددة اللغات مثل Whisper، حيث أن تحسين الأداء في قراءة الصوت قد يؤدي أحيانًا إلى تدهور في أداء الصوت العفوي، وهو ما يُطلق عليه اسم "انحياز الاستوديو".

يتضمن Vividh-ASR تقييمًا منهجيًا مع تقسيم مستويات التعقيد إلى أربعة أصناف: الاستوديو، البث، العفوي، والضجيج الاصطناعي. من خلال دراسة منظمة لتوقيت تحديثات معدل التعلم وترتيب المناهج الدراسية، أظهرت النتائج أن التحديثات الكبيرة في البداية يمكن أن تحسن معدل الخطأ العالمي (WER) بمقدار 12 نقطة كاملة. بالإضافة إلى ذلك، تشير النتائج إلى أن استخدام منهج دراسي من الصعب إلى السهل يمكن أن يحقق مكاسب ملحوظة في الكلمات المنطوقة بشكل عفوي.

تتضمن هذه الدراسة أيضًا تطوير تقنية جديدة تحت اسم "التدريب المتعدد المراحل العكسي\(R-MFT)\"، والتي تسمح لنموذج Whisper ب244 مليون معلمة بأن يحقق أداءً يعادل أو يتجاوز نظيره التقليدي الذي يحتوي على 769 مليون معلمة. تكشف التحليلات التمثيلية باستخدام تقنيتي CKA وSVD عن جداول فعالة تركز على تكيف النموذج في جهاز فك التشفير، مما يحافظ على هندسة الصوت الموجودة في جهاز الترميز المدرب مسبقًا.

يعد Vividh-ASR خطوة متقدمة نحو تحسين نسبة الدقة في نماذج التعرف على الصوت للغات ذات الموارد المحدودة، حيث يتم إصدار المرجع والنماذج المرتبطة به للجمهور للاستفادة منها.