في عالم الذكاء الاصطناعي المتطور، يُعد نماذج الكلام الكبيرة (Large Speech Foundation Models) أداة قوية، ولكنها تحتاج إلى تحسين مستمر لتناسب البيئات ذات الموارد المحدودة. في هذا الإطار، تم تطوير طريقة جديدة لتحسين فعالية عملية تحويل هذه النماذج إلى نماذج خفيفة يمكن استخدامها بكفاءة.

تعتبر عملية التقطير (distillation) جزءًا أساسيًا في هذا التحول، حيث يتم تقليل زمن الاستنتاج (inference latency) بفضل إنشاء نموذج طلابي (student model) يتطلب تدريبًا إضافيًا. ولكن، على الرغم من فوائد التقطير، فإن كفاءة التدريب لهذه النماذج لا تزال تحتاج إلى مزيد من الاستكشاف.

تتناول هذه الدراسة الحديثة كيفية تسريع عملية تدريب تقطير نماذج الكلام الكبيرة، من خلال إدخال تقنية جديدة تُعرف بالتكديس المتداخل (interleaved stacking). في هذه الطريقة، يتم زيادة عمق النموذج تدريجيًا خلال عملية التدريب حتى يتم الوصول إلى العمق المستهدف للنموذج النهائي.

بينما تواجه الأساليب الموجودة تحديات في الحفاظ على الأداء عند استخدام طرق التكديس، تضمن التقنية الجديدة التكديس المتداخل الحفاظ على موضع الطبقات (layer position) خلال العملية، وهو أمر بالغ الأهمية حيث يحتوي كل طبقة على معرفة خاصة ومتفردة.

تم اختبار فعالية هذه الطريقة المقترحة على مجموعة بيانات SUPERB، مما أظهر نتائج واعدة تتعلق بالسرعة والأداء. يفتح هذا البحث المجال أمام استخدام نماذج الكلام الكبيرة بطرق أكثر كفاءة، بما يتناسب مع متطلبات التطبيقات المعاصرة. هل يمكن أن تصبح هذه الطريقة الجديدة معيارًا في تطوير نماذج الذكاء الاصطناعي المستقبلية؟