في عالم سريع التغير، حيث تتسارع التفاعلات بين البشر والذكاء الاصطناعي، نجد أن دراسة اللغة المحكية تثير اهتمام الباحثين بشكل متزايد. فقد أظهرت الأبحاث الحديثة التي تم نشرها على منصة arXiv أن كل من اللغة التي يُعبر بها البشر وتلك التي تُنتج بواسطة نماذج اللغة الكبيرة (Large Language Models) تتطور بمرور الزمن مع تباين في محتوى الدلالة.

لكن المفاجأة هنا تكمن في عدم وجود ميزات زمنية واضحة وسهلة الفهم لالتقاط كيفية توزيع المحتوى العام مقابل المحدد. ولذلك، قدم الباحثون طريقة جديدة لتحليل الزمن الدلالي، تتضمن تحويل النصوص الكلامية المُمنوحة بتوقيتات إلى سلاسل زمنية دلالية.

أجرى الفريق تحليلاً عميقاً للقصص المُحكية، حيث قاموا بحساب (i) الخصوصية الدلالية باستخدام عمق الكلمات المعتمد على قاعدة بيانات WordNet، و(ii) التشابه السياقي باستخدام نماذج SBERT للتمثيل. ثم قاموا بتقييم التبعية الزمنية لهذه الميزات باستخدام مقاييس الارتباط الذاتي (ACW-0) وغيرها من المقاييس ذات الصلة.

من خلال مقارنة الكلام البشري مع نصوص متنوعة من قراءات النصوص المنطوقة (TTS) والنصوص التي يتم انتاجها بواسطة نماذج اللغة الكبيرة، وجد الباحثون أن المقاطع التي تحتوي على فترة ACW-0 أطول في السلاسل الزمنية الدلالية تميل إلى استخدام مفردات أكثر عمومية. بينما كانت المقاطع ذات الفترة القصيرة ACW-0 تحتوي على كلمات أكثر دقة. وقد تبين أن هذه الارتباطات تقل أو تتلاشى تماماً عندما يتم تغيير ترتيب الكلمات وتوقيتها، مما يدل على أن مقاييس ACW تلتقط تنظيمات زمنية دلالية معقدة تتجاوز التوزيعات اللغوية الثابتة.

تشير النتائج إلى أن مقاييس الزمن الدلالي المعتمدة على ACW تعتبر أدوات قوية لتحليل ومقارنة البنية الزمنية للكلام البشري وتلك التي ينتجها الذكاء الاصطناعي، مما يفتح آفاق جديدة لفهم الفروق الدقيقة بين تلك اللغتين.