استرجاع الموسيقى عبر أوصاف لغوية طبيعية قد حقق تقدماً ملحوظاً في الآونة الأخيرة بفضل نماذج التعلم المتباين مثل CLAP، ولكن مازالت هذه الأنظمة تواجه حدوداً حين يتعلق الأمر بالاستفسارات الدقيقة. فعلى الرغم من التطورات، عندما يتم استخدام أوصاف تفصيلية تشير إلى سمات موسيقية محددة مثل الإيقاع (tempo)، المفتاح (key)، تتابع الأوتار (chord progression)، أو التركيبة الإيقاعية (rhythmic structure)، غالباً ما تفشل النماذج الحالية في استرجاع الموسيقى الصحيحة.

هذا العجز يعود إلى الهدف التعليمي لنموذج التعلم المتباين نفسه؛ حيث أنه رغم تدريب نماذج CLAP على العناوين الطويلة، إلا أنها تستفيد فعلياً فقط من الكلمات القليلة الأولى، متجاهلةً الكثير من المعلومات المشفرة في الأوصاف التفصيلية. لذا، نقدم لكم FIGMA (استرجاع الموسيقى الدقيقة)؛ وهي بنية متعددة الرؤى للتعلم المتباين تعالج هذه المشكلة من خلال تحسين التوافق العام بين الصوت والنص، بالإضافة إلى التوافق على مستوى الإطارات والكلمات.

هذا التصميم يمكّن FIGMA من التقاط كل من السياق الدلالي العالي والسمات الموسيقية الدقيقة ضمن فضاء تمثيلي موحد. علاوةً على ذلك، نقوم بتعريف مهمة استرجاع الموسيقى الدقيقة وننشئ مجموعة بيانات جديدة تسمى مجموعة التسمية الموسيقية الدقيقة (FGMCaps)، وهي مجموعة بيانات كبيرة تتضمن 380,000 زوج من الموسيقى والتسمية، التي تم تنظيمها مع معلومات حول الإيقاع، والمفتاح، وتتابع الأوتار، وعدد الإيقاعات، بالإضافة إلى النوع (genre) والمزاج (mood).

تظهر التجارب الواسعة أن FIGMA تتفوق باستمرار على نماذج استرجاع الموسيقى المستندة إلى CLAP عبر مجموعة متنوعة من مؤشرات الأداء، بما في ذلك التقييمات خارج المجال، مع تحسينات نسبية تصل إلى 73.3%. هذه التقنية تمثل خطوة هائلة نحو مستقبل أكثر دقة في استرجاع الموسيقى الذي يمكن أن يغير الطريقة التي نتفاعل بها مع الموسيقى.