في عالم الذكاء الاصطناعي، تمثل نماذج اللغات الضخمة (Large Language Models) نقطة انطلاق ثورية في معالجة اللغة الطبيعية. ومع ذلك، فإن التحديات المتعلقة بنصوص غير مثالية تكشف النقاب عن جوانب غير مستكشفة من أداء هذه النماذج. في دراسة جديدة، تناول الباحثون ظاهرة تعرف باسم "وادي النص الغامض"، والتي تتطرق إلى كيفية تأثير تلاعبات الحدود بين الكلمات على قدرة نماذج اللغات الضخمة على استرجاع المعلومات.

تظهر النتائج أن دقة اكتشاف المحتوى تتبع منحنى على شكل U مع زيادة معدل إدخال مسافات داخل الكلمات، مشيرة إلى تدهور الأداء تحت ظروف معينة. وفقًا للفريق البحثي، تنص فرضية انتقال الوضع على أن نماذج اللغات الضخمة تعمل في نمط على مستوى الكلمات مع النصوص القريبة من القاعدة، وتنتقل إلى نمط على مستوى الأحرف عند التعامل مع نصوص مكسورة بشدة.

تشير التجارب الأربعة التي أجريت إلى أن التعلم في السياق لا ينجح في تحسين الأداء في أدنى نقطة في المنحنى، كما أن تنظيم التشويش يؤدي بشكل ملموس إلى تقليل شكل U. ومن المثير للاهتمام، أن مهام التفكير الرياضي تظهر أيضًا هذا الشكل للنموذج Gemini 3.0 Flash لكن ليس للنماذج الأقوى، مما يشير إلى أن التأثير يتضاءل عندما تكون المهام أقل اعتمادًا على التوافق الدقيق.

هذه الاكتشافات تفتح المجال لفهم أفضل لكيفية استجابة نماذج اللغات الضخمة في السيناريوهات التي تتضمن إدخالات نصية مشوشة أو غير مصقولة، مما يزيد من أهمية تحسين هذه النماذج لاستخدامها في التطبيقات الواقعية.