في عالم يسرع فيه التطور التكنولوجي، أصبح توليد الصوت الموجه بواسطة التعليمات ضرورة ملحة. ومع ذلك، فإن الأساليب الحالية لتقييم الجودة تعتمد بشدة على النماذج اللغوية الضخمة (Large Language Models) التي قد لا تتمكن من التعامل مع تعقيد التعليمات المتداخلة. لذا، أقدم لكم جانباً جديداً ومتميزاً في هذا المجال، وهو نظام AnyAudio-Judge.

يجسد AnyAudio-Judge تجربة مبتكرة تماماً، حيث يعتمد على نموذج تقييم ديناميكي يستند إلى جداول تقييم مفصلة. هذه الجداول تكسر التعليمات الصوتية المعقدة إلى عناصر تقييم مستقلة، مما يتيح لنا تقييمها بطريقة أكثر دقة ووضوحاً. يتفوق النظام في قدرته على توفير تقييمات دقيقة توضح الخبرات الثقافية والفنية المتنوعة عبر أربعة مجالات صوتية تشمل الفصحى (Speech) والموسيقى (Music) وغيرها.

لضمان فعالية هذا النظام، تم تطوير AnyAudio-Judge Bench، وهو معيار شامل يقدم 7,920 عينة تم تنسيقها بعناية، إلى جانب جمع ضخم مكون من 105,000 عينة تتضمن استدلالات واضحة من نوع Chain-of-Thought (CoT) لتدريب النموذج. من خلال دمج أساليب التخصيص المدعوم (Supervised Fine-Tuning, SFT) وتحسين السياسات النسبية (Group Relative Policy Optimization, GRPO)، استطاع النموذج ضبط مسارات التفكير الخاصة به وفقاً لآلية التقييم.

تظهر النتائج التجريبية أن AnyAudio-Judge يعزز من قدرات الكشف عن المطابقة بشكل كبير مقارنة بالمراجع الحالية، مقدماً إشارات مكافأة دقيقة وتفسيرية من شأنها تحسين توافق التعليمات في تطبيقات التعلم المعزز لتوليد الصوت.

ما رأيكم في هذه التقنية الحديثة؟ شاركونا في التعليقات.