في عالم الذكاء الاصطناعي، تبرز مسألة أساسية: كيف تتعلم نماذج اللغة ما يجب تجنبه من تعبيرات وصياغات دون الحاجة إلى أدلة سلبية؟ تبدأ الإجابة في تكوين قواعد اللغة (Construction Grammar)، التي تقترح فكرة الاستباق الإحصائي (Statistical Preemption).

عند التعرض لصيغة تقليدية مثل "تبرع بالكتب للمكتبة"، فإن هذه الصيغة تمنع الاستخدام الخاطئ المحتمل مثل "تبرع المكتبة بالكتب".

قامت دراسة حسابية حديثة بالتحقيق في هذا المفهوم، مقدمةً أدلة جديدة تستند إلى أربعة تجارب تم خلالها تحليل 120 تركيبًا فعليًا باللغة الإنجليزية (مثل النمط التبادلي والسببية والموقع).

تظهر النتائج ارتباكًا قويًا في أنماط ردود الفعل في نماذج اللغة ( باستخدام مؤشر "الدهشة" أو blij) والتي ترتبط ارتباطًا وثيقًا بأحكام قبول اللغة الإنسانية، حيث بلغ معامل الارتباط $r = 0.79$.

علاوةً على ذلك، تبيّن أن هذه الأنماط ناجمة عن تكرار الصيغ المتنافسة بدلاً من تكرار الأفعال بشكل عام. تم تأكيد ذلك من خلال تحليلات جزئية غير دائرية، مما يعزز الفرضية بأن نماذج اللغات الضخمة تكتسب المعرفة السلبية اللغوية من خلال المنافسة التوزيعية.

تأثير هذه الاكتشافات ليس محدودًا، حيث يتناسب حساسية الاستباق مع حجم النموذج بشكل متصاعد وفقًا لقانون القوة، مما يعني أن نماذج اللغة الأكبر تُظهر قدرة أفضل على فهم ما يجب تجنبه.

وفي نهاية المطاف، تقدم هذه الدراسة تسليط الضوء على كفاءات نماذج اللغة وتعزز من فهمنا للآليات المعقدة التي تقف خلف اكتساب المعرفة اللغوية. هل تعتقد أن هذه النتائج قد تؤثر على كيفية تطوير نماذج اللغة المقبلة؟ شاركونا في التعليقات.