مع تزايد اعتماد نماذج اللغات الضخمة (Large Language Models) في أنظمة الجيل المعزز بالاسترجاع، أصبح من الضروري فهم كيفية تأثير المعلومات المضللة على الأداء في سياقات طويلة. أظهرت الأبحاث السابقة أن المستندات ذات الصلة دلاليًا ولكنها مضللة تؤدي إلى تقليل الأداء، ولكن العلاقة الكمية بين نسبة المشتتات والأداء لم يتم دراستها حتى الآن.

في دراسة جديدة، تم تعديل نسبة المشتتات الصعبة في سياقات ثابتة الطول منه بشكل منهجي، مما كشف عن نمط غير خطي مثير. بينما تزداد نسبة المشتتات الصعبة، ينخفض الأداء بشكل حاد خلال جزء صغير من النسبة، بينما يؤدي الباقي فقط إلى تراجع هامشي إضافي. أطلقنا على هذه الظاهرة اسم "أول قطرة حبر"، مشبهين إياها بكيفية تلوث نقطة صغيرة من الحبر للماء.

تشير التحليلات النظرية والعملية التي تعتمد على ميكانيكا الانتباه إلى أن المشتتات الصعبة تستحوذ على انتباه غير متناسب حتى عند نسب صغيرة، مع تأثير متناقص هامشي مع زيادة النسبة. تُظهر التجارب المنضبطة أن المكاسب الناتجة عن تصفية المشتتات تأتي أساسًا من تقليل طول السياق بدلاً من إزالة المشتتات؛ فاستعادة كبيرة الأداء تتطلب تقليل نسبة المشتتات الصعبة إلى بالقرب من الصفر، مما يبرز أهمية دقة الاسترجاع في المراحل السابقة.