تزايدت الحاجة إلى استراتيجيات فعالة لتقييم النماذج الصوتية الكبيرة (Large Audio Models - LAMs) في ظل تسارع انتشارها في السوق. ومع ارتفاع تكلفة المعايير الشاملة، أجرينا دراسة تحليلية لمعرفة إمكانية تقييم هذه النماذج بكفاءة باستخدام مجموعات صغيرة من البيانات.
استعرضت الدراسة 10 طرق لاختيار المجموعات مع 18 نموذج صوتي عبر 40 مهمة، ووجدنا أن استخدام 50 مثال فقط (ما يعادل 0.3% من البيانات) يمكن أن يحقق أكثر من 0.93 في معامل ارتباط بيرسون مع الدرجات الكاملة للمعايير. لكن الأمر الأهم تمثل في التحقق من مدى توافق هذه الدرجات مع ما يهتم به المستخدمون، وهو الرضا العام.
قمنا بجمع 776 تقييم تفضيل بشري من محادثات حقيقية مع المساعدات الصوتية، ووجدنا أن كل من المجموعات الصغيرة والمعايير الكاملة حققت مستوى ارتباط يبلغ 0.85 مع تفضيلات البشر. ولتحقيق توقعات أفضل، قمنا بتدريب نماذج انحدار (Regression Models) على هذه المجموعات المحددة، وكان الناتج مثيرًا للغاية حيث حققت 0.98 في معامل الارتباط -- متفوقة على النماذج المدربة على مجموعات عشوائية أو المعايير الكاملة.
هذه النتائج تبرز قيمة جودة البيانات على الكمية، حيث تبيّن أن المجموعات المدروسة بعناية تفوق نتائج المعايير التقليدية. لهذا السبب، نحن متحمسون للإفصاح عن هذه المجموعات كمعيار HUMANS، والذي يعد بديلاً فعالاً لتقييم LAMs مع التركيز على الأداء وفقًا لتفضيلات المستخدمين.
ابتكار يلبي احتياجات البشر: تقييم فعال لنماذج الصوت الكبيرة من خلال محاذاة تفضيلات المستخدمين
تشير دراسة جديدة إلى أن تقييم النماذج الصوتية الكبيرة يمكن أن يتم بكفاءة من خلال استخدام مجموعات بيانات صغيرة تركز على تفضيلات المستخدمين. النتائج تظهر أن الجودة تتفوق على الكمية في عملية التقييم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
