في عالم الذكاء الاصطناعي، تعد نماذج اللغة الكبيرة الخاصة بالصوت (Speech Large Language Models) من أبرز الابتكارات التكنولوجية. لكن هناك تساؤلات حول مدى فعالية استخدام كل تلك الطبقات الفكرية الموجودة في نماذج فك التشفير.

أجرى الباحثون دراسة حديثة تتناول مسألة الاستغناء عن بعض هذه الطبقات لتحسين الأداء. حيث تم التوصل إلى أن الكثير من سعة هذه الطبقات قد لا تكون ضرورية، وهو ما تم إثباته عبر دراسة مقارنات بين عائلتين من نماذج اللغة الكبيرة بمقاييس مختلفة تتراوح ما بين 1 إلى 8 مليارات وحدة.

وجدت الدراسة أن الطبقات الزائدة في فك التشفير تنتقل غالبًا من نماذج اللغة المدربة مسبقًا، وأن مدخلات النصوص والصوت تؤدي إلى نتائج متشابهة في كتل زائدة. كما تم قياس سعة الزيادة من خلال حذف طبقات فك التشفير، وتحليل إمكانية الشفاء بعد الحذف ليكون النموذج أكثر قوة.

تشير النتائج إلى أن النماذج التي تتراوح بين 7-8 مليارات وحدة تحافظ على أداء جيد في التعرف على الصوت (ASR) مع استخدام 60% فقط من طبقات فك التشفير، وهذا الاتجاه يمكن ملاحظته أيضًا في النماذج الأصغر مع قابلية أقل للتحمل عند الحذف.

لم يتوقف الأمر عند هذا الحد، بل تم تعميم الاكتشافات لتشمل ترجمة الصوت، حيث أظهرت الدراسة أن نفس كتل الطبقات تعد زائدة عبر معالجات الصوت والمهام واللغات المختلفة، مما يعني أن هناك بنية زائدة عالمية يمكن أن تتيح النشر الفعال لنموذج مركزي متعدد المهام في نطاق نماذج اللغة الصوتية.