في عالم الذكاء الاصطناعي، يمثل التقدم في تحويل الصوت (audio tokenization) خطوة هامة نحو دمج قدرات الصوت في نماذج اللغات الضخمة (Large Language Models). ولكن، غالبًا ما يتم التعامل مع وفهم وإنتاج الصوت كمهمتين منفصلتين، مما يعيق تطوير نماذج صوتية متكاملة حقًا.

مع ظهور تقنيات جديدة مثل ضبط التعليمات (instruction tuning)، تم تحقيق نجاحات ملحوظة في تحسين التعميم والتعلم بدون إجراء (zero-shot learning) في مجالات النصوص والرؤية، ولكنها لا تزال غير مستكشفة في الصوت. ومن العقبات الرئيسية في هذا السياق نقص قواعد البيانات الشاملة التي توحد بين الفهم والإنتاج.

لذلك، نقدم لكم مجموعة بيانات Audio-FLAN، وهي مجموعة بيانات كبيرة الحجم تركز على ضبط التعليمات، تغطي 80 مهمة متنوعة في مجالات الكلام والموسيقى والأصوات، مع أكثر من 100 مليون حالة. تُعتبر Audio-FLAN الأساس لتطوير نماذج صوتية متكاملة يمكنها التعامل بسلاسة مع مهام الفهم (مثل النسخ والفهم) والإنتاج (مثل الكلام والموسيقى والأصوات) عبر مجموعة واسعة من مجالات الصوت بدون الحاجة للتكيف.

يمكن العثور على مجموعة بيانات Audio-FLAN على منصات HuggingFace وGitHub، مما يفتح آفاقًا جديدة للباحثين والمطورين في هذا المجال المتنامي. كيف سيكون مستقبل نماذج الصوت مع هذه الإضافة؟