في عالم الذكاء الاصطناعي، تُستخدم نماذج اللغة الكبيرة (LLMs) بشكل متزايد في الأنظمة التي تتطلب تنفيذ مهام محددة بواسطة المستخدم على نصوص مرجعية مقدمة من جهة خارجية. ومع ذلك، غالبًا ما تحتوي هذه السياقات على معلومات غير منظمة وملوثة بضوضاء دلالية غير ضارة تشبه التعليمات، مثل التعليقات التحريرية والأثر النظامي. هذه الضوضاء ينبغي اعتبارها كبيانات فقط.

لتقييم مدى مرونة هذه النماذج أمام التعليمات المشتتة، تم تقديم معيار DistractionIF. خلال تجربة شاملة على مجموعة واسعة من النماذج، لوحظ ظاهرة عكسية معروفة حيث كان أداء النماذج الكبيرة أقل بكثير، إذ تراجعت النتائج بمقدار يصل إلى 30 نقطة مع زيادة حجم النموذج. ومن خلال تحليل التشويش، تبين أن التوسع في النموذج يضعف الحدود الاحتمالية بين السلوكيات المستقرة والمشتتة، مما يجعل النماذج أكثر ميلاً لتفسير الضوضاء على أنها تعليمات.

لمعالجة هذه المشكلة، أظهرت النتائج أن تقنيات التعلم التعزيزي، مثل تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization - GRPO)، يمكن أن تعيد هذه الحدود، مما يحسن من المرونة بمعدل يصل إلى 15.5% دون المساس بقدرتها على اتباع التعليمات العامة. تبرز هذه النتائج الفجوة الحرجة في قدرة النماذج على اتباع التعليمات في المهام المرتبطة بالمرجع، مما يقترح أن التعلم التعزيزي يمثل مسارًا واعدًا لتعزيز الفصل الصارم بين البيانات والتعليمات على نطاق واسع.