تُعتبر نماذج اللغات الضخمة (LLMs) من أبرز التطورات في مجال الذكاء الاصطناعي، حيث تُظهر قدرتها على الانخراط في حوارات طبيعية مع البشر. ومع ذلك، تكشف دراسة جديدة عن فجوة مثيرة للدهشة، إذ تفشل هذه النماذج في توقع الكلام التالي الذي قد يقوله المتحدث البشري. بينما يتمكن البشر بفضل إشارات متعددة الحواس، مثل الإيماءات، والنظر، ونبرة الصوت، من استشراف ما سيتم قوله، لم تستطع نماذج LLMs التعامل بسلاسة مع هذه الديناميكيات.

لاستكشاف هذا التحدي، تم تقديم معايير جديدة تُعرف بـ SayNext-Bench، التي تهدف إلى تقييم أداء نماذج LLMs في توقع ردود السياق في سيناريوهات واقعية متنوعة. لدعم هذا الجهد، تم تطوير مجموعة بيانات حوارية متعددة الحواس تُعرف بـ SayNext-PC، وقد تم تصميم إطار تقييم متكامل ينظر في تشابه الكلمات، اتساق المشاعر والنوايا، وتوافق النماذج.

بالإضافة إلى ذلك، تم ابتكار SayNext-Chat، وهو نموذج مُلهم من العمليات المعرفية، يدمج عناصر قابلة للتعلم لدمج الإشارات الإدراكية مع التوقعات السلوكية. تظهر التجارب أن SayNext-Chat يتفوق باستمرار على أفضل نماذج LLMs الحالية عبر كافة مستويات التقييم، مما يبرز أهمية الإشارات متعددة الحواس وعملية التوقع النشطة كأساسيات للتفاعل البشري الطبيعي التي تنقص نماذج LLMs الحالية.