في عالم متسارع التغيرات، يظهر الابتكار كعامل حاسم في مجال الرعاية الصحية، وبالتحديد في الكشف المبكر عن الخرف. تعتبر التقنيات الحالية المستخدمة في فحص الخرف عبر تحليل الكلام غير جراحية، لكنها تكتنفها تحديات كبيرة في التقاط العلامات الحيوية الصوتية واللغوية. وفي خطوة رائدة، تم تقديم إطار عمل متعدد الوسائط يجمع بين استخراج التمثيلات الصوتية باستخدام خوارزمية Whisper وتأثير نموذج لغوي ضخم (LLM) لاستخراج ميزات لغوية معبرة.

في الجزء المتعلق بالصوت، يقوم الطراز باستخدام شبكات زمنية مع حزم انتباه لتجميع تسلسلات ذات أطوال متغيرة إلى تمثيلات ذات أبعاد ثابتة. أما بالنسبة للطريق اللغوي، فقد تم استخدام نموذج لغوي ضخم (LLM) لاستخراج ميزات قابلة للتفسير تشمل تنوع المفردات، وتعقيد التركيب، وتماسك المعنى، وأنماط الحوار. يتم دمج كلا المسارين من خلال شبكة دمج محكمة تعمل على تقوية الفعالية.

أظهرت النتائج على مجموعتي بيانات ADReSS وADReSSo درجات F1 مذهلة بلغت 89.47% و90.14%، مما يبرز القدرة الفائقة لهذا الإطار على دمج الميزات الصوتية مع الميزات اللغوية المحسنة. كما أظهرت التحليلات أن الدمج متعدد الوسائط consistently outperform أي من الطرق الفردية.