في عالم الذكاء الاصطناعي، يعتمد استرجاع البيانات الهيكلية على تنظيم معلومات دقيقة، حيث تُعبر كل سجل عن مخطط صغير يحتوي على حقول مختلفة تجيب على استفسارات متنوعة. ولكن، لهذه الحقول ترتيب معين، والذي يفرض خيارات قد تؤثر على جودة الاسترجاع.

من هنا، قدمنا دراسة حول كيف أن اختيار ترتيب الحقول — الذي قد يبدو تفاصيل تنفيذية بسيطة — يلعب دورًا كبيرًا في دقة النتائج. في حالة لم يتم ضبط النموذج بشكل صحيح، يمكن أن يتعرض للاستنزاف، حيث كانت هناك خسارة تصل إلى 7.4 نقطة في مقياس nDCG@10 عند إعادة بناء الفهرس بترتيب مختلف للحقول.

لكننا لم نكتفِ بذلك. قدمنا تقنية جديدة تُعرف باسم Permutation-Invariant Fine-Tuning (PI-FT)، والتي تُحول كل سجل إلى شكل جديد يقوم بتغيير ترتيب الحقول بانتظام ويخفض العقوبة المرتبطة بتغيير الترتيب إلى 0.2 نقطة.

تتناول دراستنا أيضًا بيانات التطوير، وهي مجموعة من نحو 10,000 مؤشر بحث تُعد مهمة للغاية في الوصول إلى إحصاءات ونماذج البيانات. ومع تزايد دور وكلاء الذكاء الاصطناعي في الوصول إلى البيانات العامة، فإن هذه الخطوة في الاسترجاع تصبح شرطًا أساسيًا لضمان أن تكون الإجابات مستقاة من المؤشرات الصحيحة.

يتميز نموذجنا المدرب (118M) بأدائه المتفوق في جميع السياقات، بما في ذلك التحديات المستندة إلى المؤشرات التي لم يتم البحث عنها سابقًا. وعلاوة على ذلك، قدمنا معيارًا جديدًا يُعرف باسم DevDataBench، والذي يتضمن استفسارات مستندة إلى نماذج لغوية عبر 15 لغة.

بهذا الشكل، نعد بإطلاق هذه الأداة الجديدة، جنبًا إلى جنب مع أنابيب العمل والنماذج، ونموذج PI-FT القابل لإعادة الاستخدام، مما يسهل العثور على المعلومات الصحيحة بشكل أكبر.