أحدثت المع architectures المبنية على نماذج Transformer نقلة نوعية في مجال توليد التسلسلات الرمزية المعقدة، ولكن لا يزال هناك تحدٍ كبير يتمثل في تحقيق تحكم دقيق وواضح في الخصائص الصوتية المنفصلة. في هذا السياق، تدرس ورقة بحثية جديدة الطريقة الميكانيكية لفهم نموذج موسيقى متعدّد المسارات (Multitrack Music Transformer) وتقترح إطار عمل للتحكم المضمون في الخصائص الصوتية دون الحاجة لإعادة تدريب النموذج، من خلال الاستفادة من أسلوب التوجيه النشط في مرحلة الاستدلال.

تستخدم الدراسة منهجية فرق المتوسطات (Difference-in-Means) لعزل الاتجاهات الخفية للخصائص الصوتية، وبشكل خاص نغمة الصوت (Pitch) ومدة النغمات (Duration)، ضمن مجرى المتبقي. كما أكد الباحثون فرضية التمثيل الخطي (Linear Representation Hypothesis) في هذا المجال، حيث تم التوصل إلى ارتباط عالٍ بين مقدار التوجيه وتحول الخصائص الصوتية.

لمواجهة التعقيد الذي يعاني منه التحكم في الخصائص المتعددة، يقدم الباحثون إطار العمل الثنائي للتوجيه (Dual Steering) مستفيدين من تقنيات تمييز غرام-شميدت (Gram-Schmidt Orthogonalization). أظهرت النتائج التجريبية أن هذا الفصل الهندسي يقلل من التداخل المفاهيمي وتدهور الإشارة مقارنة بإضافة المتجهات البسيطة، مما يوفر تحكمًا مستقلًا ودقيقًا حتى في مواجهة عمليات التكيّف الذاتي القوية.