في عالم الذكاء الاصطناعي، يُعد فهم النوايا وراء الكلام والمحادثات والكتابة أمراً بالغ الأهمية لتطوير مساعدات فعالة من نماذج اللغات الضخمة (Large Language Models - LLMs). في هذا السياق، تُقدم دراسة جديدة معيارًا جديدًا يحمل اسم "IntentGrasp"، والذي يُعتبر بمثابة خطوة رائدة لتقييم قدرة هذه النماذج على فهم النوايا.

يستند معيار IntentGrasp إلى مجموعة شاملة تضم 49 مجموعة بيانات مرخصة مفتوحة من 12 مجالًا متنوعًا، حيث تم تشكيله من خلال تنسيق مجموعات البيانات، وتوضيح علامات النوايا، وموحدة صيغ المهام. يتضمن المعيار مجموعة تدريب واسعة تحتوي على 262,759 مثالًا، بالإضافة إلى مجموعتين للتقييم: مجموعة شاملة (All Set) تحتوي على 12,909 حالة اختبار، ومجموعة جيّدة (Gem Set) تتكون من 470 حالة أكثر توازنًا وتحديًا.

وكشفت تقييمات شاملة على 20 نموذجًا من نماذج اللغات الضخمة، تتضمن نماذج متطورة مثل GPT-5.4 وGemini-3.1-Pro وClaude-Opus-4.7، أن الأداء كان دون المستوى المطلوب، حيث كانت الدرجات أقل من 60% في المجموعة الشاملة وأقل من 25% في مجموعة Gem.

ومن المثير للاهتمام أن 17 من بين 20 نموذجًا تم اختبارها حققت أداءً أسوأ من مستوى التخمين العشوائي (15.2%) في مجموعة Gem، بينما كانت الأداء البشري المُقدّر حوالي 81.1%، مما يُظهر وجود مجال كبير للتحسين.

لتحسين هذه القدرة، اقترحت الدراسة أسلوبًا جديدًا يسمى "التعديل القائم على النية" (Intentional Fine-Tuning - IFT)، الذي يعمل على تعديل النماذج باستخدام مجموعة التدريب في IntentGrasp، مما يُحقق مكاسب كبيرة تتجاوز 30 نقطة في مقياس F1 للمجموعة الشاملة و20 نقطة لمجموعة Gem.

تؤكد التجارب المستندة إلى ترك مجال واحد خارجًا (Leave-One-Domain-Out - Lodo) أن IFT يمكن أن تحقق تعميمًا قويًا عبر المجالات، مما يثبت أنه نهج واعد لتحسين فهم النوايا في نماذج اللغات الضخمة. في المجمل، يُسلط الضوء على أن معيار IntentGrasp يمهد الطريق نحو مساعدات ذكاء اصطناعي أكثر فاعلية وأمانًا، مما يعود بالنفع على البشرية.