في عالم التكنولوجيا المتطور، يُشكل استخدام نموذج الإدماج في معالجة براءات الاختراع خطوة ثورية نحو تحسين كيفية استرجاع وتصنيف وتجمع البيانات. في دراسة حديثة، تم تقييم 22 نموذج إدماج، تتراوح من النماذج ذات الـ 22 مليون معلمة إلى نماذج اللغات الضخمة (LLMs) المُحسنة عبر 12 مليار تعليمات، في مجموعة متنوعة من المهام.

استخدمت الدراسة 113,148 براءة اختراع في مجال التكنولوجيا المساعدة من المنظمة العالمية للملكية الفكرية (WIPO)، بالإضافة إلى 46,069 استعلامًا لاسترجاع البيانات. كما تم استخدام مجموعة بيانات DAPFAM العامة للتحقق الخارجي.

تُظهر النتائج أن تحسين أداء نماذج الإدماج يعتمد على المهمة المحددة، حيث يمكن أن يؤدي التعديل للأغراض المحلية إلى تحسين النتائج في نفس المجال، ولكنه قد يؤثر سلبًا على الاسترجاع من مجالات أخرى. على الرغم من ذلك، تشير البيانات إلى أنه ليس دائمًا من المؤكد أن زيادة كمية البيانات في المجال تُسهم في تحسين الأداء.

فيما يتعلق بتدرج النماذج، غالبًا ما يمكن لتدرج الحجم أن يتنبأ بالأداء؛ فعلى سبيل المثال، تم ترتيب النموذج KaLM-Gemma3 الـ 12 مليار في المرتبة الثامنة في استرجاع TAC، بينما نموذج Qwen3-0.6B يتصدر تجمع ARI.

تعتبر المكونات النصية المتمثلة في العنوان + الملخص + المطالبات الأكثر موثوقية. يُظهر تحسين التجانس بين وجهات النظر المتعددة للملخص والمطالبات تحسنًا في استرجاع البيانات بنسبة تصل إلى 7.1%، بينما تعطي التعديلات المشتركة أقوى مكاسب في التصنيف.

ومع ذلك، يتعرض جميع النماذج لتقليص بنسبة 55-65% عند التعامل مع استعلامات خارج مجالها، ولا تُساهم التقنيات الهجينة في تجاوز هذه الفجوة. بالمقابل، أظهرت تقنيات الدمج بين BM25 والكثافة مكاسب متواضعة في استرجاع البيانات.

تعد هذه الدراسة مرجعًا مهمًا للباحثين في مجال الذكاء الاصطناعي والقطاع الخاص، حيث يتم إتاحة الرموز وإطار التقييم للجمهور.