في الآونة الأخيرة، مع التطورات المتسارعة في نماذج الصوت واللغة الكبيرة (Large Audio-Language Models - LALMs)، أصبح لدينا فرصة غير مسبوقة لتعزيز قدرات نماذج اللغات الضخمة (Large Language Models - LLMs) من خلال إدماج القدرة السمعية. من المتوقع أن تظهر هذه النماذج كفاءات عالمية في مختلف المهام السمعية، مما يفتح آفاق جديدة أمام التطبيقات العملية.

ومع ظهور العديد من معايير القياس لتقييم أداء نماذج LALMs، يظل هذا المجال غير منظم ويعاني من نقص في التصنيف الهيكلي. لذلك، قمنا بإجراء استعراض شامل يهدف إلى سد هذه الفجوة، من خلال تقديم تصنيف نظامي لتقييمات LALMs. يتم تصنيف هذه التقييمات إلى أربعة أبعاد استناداً إلى أهدافها، وهي:

1. **الوعي والمعالجة السمعية العامة**: تقييم قدرة النموذج على التعرف على الأصوات وفهم المعطيات السمعية بشكل عام.
2. **المعرفة والتفكير المنطقي**: قياس كيفية استخدام النماذج للمعلومات السمعية لاستنتاجات واستدلالات منطقية.
3. **القدرة على الحوار**: تقييم كيفية تفاعل النماذج مع المستخدمين من خلال حوارات معقدة.
4. **العدالة والأمان والثقة**: فحص ما إذا كانت النماذج تقدم أداءً عادلاً وآمنًا وتحقق مستويات ثقة مقبولة.

داخل كل من هذه الفئات، نقدم نظرة شاملة حول التحديات الموجودة، ونستعرض اتجاهات مستقبلية واعدة يمكن أن تعزز التطورات في هذا المجال الحيوي.

هذا الاستعراض يعد الأول من نوعه الذي يركز بشكل خاص على تقييمات LALMs، وهو يهدف إلى تقديم إرشادات واضحة للمجتمع العلمي. كما سنتولى نشر مجموعة من الأوراق المستعرضة ومتابعتها بشكل نشط لدعم التقدم المستمر في هذا المجال.