في عالم الذكاء الاصطناعي، يعد استرجاع المعلومات (Information Retrieval) أحد الجوانب الحاسمة التي تعزز استخدام الشبكات العصبية. في هذه الدراسة، تم تناول قضية مثيرة تتعلق بكيفية استعداد المسترجعين العصبيين لتفضيل أنواع محددة من المستندات بناءً على تدريبهم على بيانات موسومة.

المسترجعون العصبيون، الذين يعتمدون على نماذج مشابهة للنماذج الثنائية (Bi-Encoder) لإنتاج تنبؤات حول ملاءمة الاستعلامات والمستندات، لا يتعلمون فقط أبعاد الصلة بين الاستعلامات والمحتوى، بل قد يتبنون أيضًا تفضيلات واضحة عند تحليل البيانات المدربة. لذا، يثير السؤال: هل كانت تفضيلات المستندات نتيجة للتدريب على بيانات معينة تؤثر على قراراتهم في استرجاع المعلومات؟

استنادًا إلى أبحاث حديثة، تم تقدير هذه التفضيلات من خلال تدريب مصنفات بسيطة على مستندات ثابتة ثم تقييم عدد من المسترجعين العصبيين المتميزين عبر معايير متعددة في استرجاع المعلومات.

تُظهر النتائج أن المسترجعين العصبيين المشرفين يحملون تفضيلات مستندة إلى الصلة التي تتجلى حتى في المستندات غير المرئية سابقًا. وهذا يعني أن المستندات التي تصنف بأنها ذات صلة بشكل منخفض تكون أصعب بشكل منهجي في الاسترجاع، حتى عند كونها ذات صلة حقيقية. مما يظهر أن هناك فجوة في إمكانية الوصول للمعلومات تتعلق بمدى توفّر المستندات.

تساعد الأدلة المستندة إلى الشرح من نماذج اللغات الضخمة (Large Language Models) في تسليط الضوء على أن المستندات المصنفة على أنها ذات صلة تكون عادة ملخصات شاملة لمواضيع شائعة، بينما المحتويات المتخصصة أو المجزأة غالبًا ما تُترك دون تقييم. هذه النتيجة تشير إلى أن المسترجعين العصبيين يكتسبون تحيزات داخلية، مما يؤدي إلى تصنيف وثائق معينة أعلى من غيرها، بغض النظر عن واقع صلتها.

تظهر نتائج هذه الدراسة قيودًا هيكلية في نماذج الاسترجاع المعتمدة على البيانات الموسومة (Annotated Data)، حيث لا يتعلم النموذج مجرد الصلة، بل أيضًا التفضيلات الضمنية للمستندات ضمن البيانات التي تدرب عليها. كيف يمكن أن تؤثر هذه النتائج على تقنيات الذكاء الاصطناعي المستقبلية؟ شاركونا آراءكم في التعليقات!