في عالم الذكاء الاصطناعي، تحظى نماذج اللغة الصوتية الكبيرة (Large Audio-Language Models) بشعبية كبيرة، لكن لا تزال تواجه تحديات في مهام التفكير الصوتي المعقدة. هنا يأتي دور dataset AudioDER، الذي يمثل خطوة متقدمة لتحسين هذه القدرات الحيوية.

تعتبر تقنية ما بعد التدريب (post-training) وسيلة فعالة لتعزيز قدرات هذه النماذج، لكن يعتمد النجاح بشكل حاسم على جودة وتنوع بيانات التدريب. للأسف، تعاني قواعد البيانات الصوتية الموجودة من تكرار ملحوظ يؤثر سلبًا على تنوع المحتوى ويزيد من تكاليف التقييم.

لذا، قدم الباحثون نهجًا مبتكرًا يتضمن إنشاء pipeline يركز على التخلص من التكرار في مجموعات البيانات الصوتية الخام. يتم هذا عن طريق حساب التشابه السمعي بين المقاطع الصوتية، والتي تساعد في تحسين تنوع المحتوى. بعد ذلك، يتم دمج التعليقات الصوتية الحالية وأسئلة وإجابات في صيغة موحدة من الاختيارات المتعددة.

تستفيد هذه المبادرة من نموذج Qwen3-30B لتوليد تفسيرات منطقية سلسلة (Chain-of-Thought) لدعم التفكير في التوجيه. وقد تم تطوير AudioDER، وهو مجموعة بيانات ما بعد التدريب تحتوي على حوالي 191,000 عينة من الأصوات والكلام والموسيقى. كل عينة تتضمن مقطعًا صوتيًا، سؤال متعدد الخيارات، أربعة خيارات إجابة، تعليق صوتي، وتفسير منطقي.

أظهرت التجارب الواسعة أن استخدام AudioDER في ما بعد التدريب يعزز الأداء لعدة نماذج، بما في ذلك Qwen2-Audio-7B-Instruct، على مقاييس التفكير الصوتي المختلفة مثل MMAU-mini وMMSU وMMAR. نأمل أن يكون AudioDER موردًا قيماً لدفع أبحاث التفكير الصوتي وتطوير نماذج الذكاء الاصطناعي الصوتية الأكثر قدرة.