في عالم الذكاء الاصطناعي، يبرز نموذج GaMMA كإنجاز متطور في فهم الموسيقى بطرق متعددة. يعتمد GaMMA على تصميم المحول (Transformer) من LLaVA، مما يجعله قادرًا على التعلم الفعال بين الموسيقى واللغة.
يعد GaMMA نموذجًا متعدد الوسائط متقدمًا (State-of-the-Art Large Multimodal Model) يدمج وحدات تحليل الصوت بطريقة جديدة تُعرف بتوزيع الخبراء (Mixture of Experts). من خلال هذه الاستراتيجية، استطاع GaMMA توحيد مهام فهم الموسيقى التي تعتمد على السلاسل الزمنية وتلك التي لا تعتمد عليها، ما يجعله نموذجًا شاملاً في التفكير الموسيقي.
تم إعداد مجموعة بيانات شاملة وعالية الجودة، متكاملة مع خطوات تدريب متقدمة، مما يدفع حدود فهم الموسيقى إلى آفاق جديدة عبر التعلم المسبق (Pretraining)، التعديل المدعوم (Supervised Fine-Tuning)، والتعلم التعزيزي (Reinforcement Learning).
لتقييم قدرة GaMMA على الفهم الفني والموسيقي، قدم الباحثون مجموعة MusicBench، وهي الأكبر من نوعها وتحتوي على 3,739 سؤال اختيار من متعدد تم تنسيقه يدويًا، تغطي جوانب متنوعة من الفهم الموسيقي.
أظهرت التجارب الشاملة أن GaMMA قد سجل دقة 79.1% على MuchoMusic و79.3% على MusicBench-Temporal و81.3% على MusicBench-Global. هذه النتائج تجعله يتفوق باستمرار على النماذج السابقة، مما يأتي بنموذج يُعيد تشكيل فهمنا للموسيقى من خلال الذكاء الاصطناعي.
GaMMA: ثورة في فهم الموسيقى العالمية والفنية من خلال نماذج متعددة الوسائط
تقدم دراسة جديدة نموذج GaMMA، الذي يعد طفرة في فهم المحتوى الموسيقي الشامل بفضل دمجه بين الموسيقى واللغة. هذا النموذج يحقق دقة غير مسبوقة في مجموعة من المهام الموسيقية، مُعيدًا تعريف كيفية تفاعلنا مع الفن من خلال الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
