في ساحة البحث المدعوم، يُعتبر التوازن بين جودة الاسترجاع وسرعة الإنتاج تحدياً كبيراً. تُظهر النماذج المستندة إلى نماذج اللغات الصغيرة (SLMs) مثل Qwen3-Embedding-4B/8B حدوداً عليا قوية في المعايير العامة، لكن تطبيقها في بيئات حساسة للوقت وذات نطاق واسع يبقى أمراً غير عملي.

ضمن هذا السياق، يعرض الباحثون إطار HARNESS-LM (HLM)، الذي يتضمن ثلاث مراحل تدريب لنقل قدرات المسترجعين على نطاق واسع إلى نماذج صغيرة تعتمد التكلفة. تتضمن العملية:

1. **تدريب مسترجع مرجعي عالي الأداء**: يتم ذلك من خلال تحسين نموذج طراز بليون معلمة (billion-parameter-scale SLM).
2. **محاذاة تمثيلات الاستفسارات**: يتم عبر هدف L2 لتقطير المعرفة إلى مشفر طلابي يقل عدد معالمه عن 600 مليون.
3. **تطبيق مرحلة تحسين نهائية**: تركز هذه المرحلة على تحسين أداء النموذج الطالب في الاسترجاع.

يشمل البحث أيضاً دراسة تجريبية شاملة تتناول خيارات التصميم الرئيسية، بما في ذلك أهداف المحاذاة، أبعاد التضمين، مقاييس النموذج، والهندسة، واستراتيجيات التحسين، لتحديد التهيئات الأكثر فعالية في سياقات الإنتاج.

وعلى معيار تقييم Bing Ads الواقعي، يتمكن HLM من استعادة أكثر من 98% من دقة المسترجع المرجعي عبر إعدادات متعددة، مع تحقيق انخفاض يصل إلى 27 مرة في زمن استجابة مشفر الاستفسار وتقديم أداء أعلى بمعدل 20 مرة على GPU من نوع NVIDIA A100.

تظهر اختبارات A/B عبر الإنترنت على Bing Ads أيضاً زيادة بنسبة 1% في العائدات، و0.6% في الانطباعات، و0.4% في النقرات مقارنةً بمجموعة المسترجعين الحالية على الإنتاج، مما يبرز فعالية وصفة HLM بشكل واضح في بيئة البحث المدعوم الواقعية.