في عالم الذكاء الاصطناعي، تبرز طرق جديدة لتحسين استرجاع المعلومات، ومن أبرزها تقنية "المصطلحات غير المرئية" (Latent Terms). تكشف هذه الطريقة عن نماذج تم تدريبها على الاسترجاع الكثيف (dense retrieval)، سواء كانت أحادية أو متعددة المتجهات، تستطيع تفكيك تمثيلات البيانات إلى ميزات متفرقة جاهزة للاستخدام.

استرجاع البيانات">نقلة نوعية في استرجاع البيانات



عند التدريب على أنظمة استرجاع محفوظة، تم استخدام برامج تلقائية فارغة (Sparse Autoencoders) بدون أي تعديلات مرتبطة بالاسترجاع، لاستخراج مفردات غير مرئية تتناسب بشكل طفيف مع إحصائيات مجموعه "زيبف" (Zipfian collection statistics). هذه المفردات تعتبر مثالية للاسترجاع باستخدام طرق تقليدية مثل طريقة "بي إم 25" (BM25).

بالإضافة إلى ذلك، تمكن هذه التقنية من تحقيق استرجاع متقطع (sparse retrieval) دون الحاجة إلى أهداف توسيع معينة أو إشراف خاص على الاسترجاع المتفرق. يمكن بسهولة تطبيق طريقة "المصطلحات غير المرئية" على أي نموذج استرجاع كثيف (dense retriever).

أداء يفوق التوقعات">أداء يفوق التوقعات



أظهرت النتائج أن طريقة "المصطلحات غير المرئية" ليست فقط قادرة على المطابقة بل وتتفوق على طرق الاسترجاع أحادية المتجه وعلى نماذج مشابهة مثل "إس بي إل آي دي" (SPLADE). والأهم من ذلك، أنها تظهر أداءً أفضل بكثير في اختبار "ليمت" (LIMIT)، المصمم لتسليط الضوء على نقاط ضعف نماذج الاسترجاع أحادية المتجه.

خلاصة



تلقي هذه النتائج الضوء على أن الأنظمة العصبية لاسترجاع البيانات تحتوي على هيكلية تعبيرية قابلة للفهرسة أكثر مما تكشف عنه طرق التقييم الافتراضية الخاصة بها. الاستفادة من هذه الابتكارات يمكن أن يغير طريقة تعاملنا مع استرجاع المعلومات بشكل جوهري.

ما رأيكم في هذه الابتكارات؟ شاركونا في التعليقات!