تشير الأبحاث الحديثة إلى أن فهم المعاني الخاصة بالتركيبات اللغوية النادرة (form-meaning pairings) يعد من التحديات الصعبة في عالم الذكاء الاصطناعي. لقد تمكنت نماذج اللغة الضخمة (Large Language Models) من اجتياز هذا التحدي بفعالية، وتظل هناك تساؤلات مفتوحة حول ما إذا كان بالإمكان لنماذج مفتوحة المصدر أن تحقق نجاحًا مماثلاً.

أجرينا دراسة جديدة تركزت على فحص تركيبات التركيز الثنائي، مثل "let alone" و"much less"، حيث قمنا بإنشاء مجموعة بيانات جديدة لاختبار معانيها باستخدام كل من الدلالات الوصفية العامة والمعرفة العالمية.

على الرغم من اختبار مجموعة واسعة من النماذج المختلفة من حيث عدد المعلمات والهندسة وحجم قاعدة البيانات المستخدمة في التدريب، وجدنا أن بعض النماذج المتوسطة الحجم أظهرت حساسية تجاه كل من الأشكال والمعاني لهذه التركيبات. ومع ذلك، فشلت النماذج التي تم تدريبها على بيانات بقدر كبير من حجم الإنسان في جميع تقييمات المعاني.

عند دراسة الديناميات التدريبية لمجموعة من النماذج المتاحة من خلال الشيكات المفتوحة، لاحظنا أن فهم التركيب الثنائي يأتي لاحقاً في التدريب مقارنة بمعرفة التركيب النحوي. كما أن تعلم دلالات التركيب الثنائي كان مرتبطًا بتحقيق مكاسب في بعض المجالات المعرفية العامة.

بشكل عام، تدعم نتائجنا التجريبية استنتاج أن نماذج مفتوحة المصدر ذات الحجم المتوسط يمكنها فهم التركيبات النادرة، مما يدل على وجود ارتباط بين معرفة هذه التركيبات وميادين المعاني الأخرى.