تعتبر عملية فهم النيّات البشرية في التفاعلات متعددة الأدوار واحدة من أكبر التحديات التي تواجه تفاعل الإنسان مع الحاسوب والتحليل السلوكي. في الوقت الذي تركز فيه معظم مجموعات بيانات التعرف على النيّات (Intent Recognition) على جمل فردية أو حوارات بسيطة، نجد أن السيناريوهات الواقعية تتطلب تفاعلات استراتيجية معقدة حيث يجب على المشاركين الحفاظ على سردات خادعة مطولة.

لملء هذا الفراغ، تم تقديم مجموعة بيانات MISID، التي تُعد معلمًا بارزًا في تحليل النيّات، والتي تعتمد على تفاعلات اجتماعية استراتيجية عالية المخاطر. تدعم هذه المجموعة مجموعة من الأنظمة اللغوية المتعددة (Multimodal) وخصائص متعددة الأدوار، مما يجعلها مناسبة للغاية لدراسة النوايا في سياقات معقدة.

تتضمن مجموعة بيانات MISID نظام ترميز ثنائي المستوى مفصل، مصمم لتحليل الحوارات طويلة السياق وتتبع الأسباب المستندة إلى الأدلة. من خلال تقييم منهجي لاختبار أداء نماذج اللغات الضخمة المتعددة الوسائط (Multimodal Large Language Models) على بيانات MISID، تم اكتشاف عيوب مثيرة في السيناريوهات المعقدة، بما في ذلك التخيلات البصرية النصية، وضعف التوافق بين الأنماط، والقدرة المحدودة على ربط الإشارات السببية.

لذلك، تم اقتراح إطار عمل FRACTAM كمعيار أساسي، حيث يعتمد على نموذج "فصل-تثبيت-استدلال" لتقليل الانحياز النصي من خلال استخراج تمثيلات واقعية أحادية النمط وتوظيف استرجاع ثنائي المرحلة لتثبيت الحقائق على المدى الطويل، وبناء سلاسل أدلة بين الأنماط.

تظهر التجارب الواسعة أن FRACTAM يعزز أداء النماذج الشائعة في المهام الاستراتيجية المعقدة، مما يحسن اكتشاف النوايا المخفية والاستدلال، بينما يحتفظ بدقة حسية قوية. يمكن الوصول إلى مجموعة بيانات MISID من خلال الرابط هنا حتى تتمكنوا من الاطلاع على التفاصيل والمساهمة في هذا البحث الرائد.