في عالم الذكاء الاصطناعي، تلعب أنظمة توليد اللغة المدعومة بالاسترجاع (RAG) دورًا محوريًا في تعزيز قدرة النماذج اللغوية الكبيرة (LLMs) عبر دمج الوثائق المسترجعة في عملية生成 الإجابات. لكن تساءل الباحثون مؤخرًا عن كيفية تمثيل المحتوى المسترجع عندما يكون المستهلك نموذجًا لغويًا كبيرًا، وليس قارئًا بشريًا.

تشير الأبحاث الأخيرة إلى أهمية التنويعات في تمثيل المحتوى المسترجع، وطرحت تحولات جديدة لتأثير خصائص هذه التمثيلات على دقة الإجابة. ومع ذلك، كانت الدراسات السابقة تركز عادة على سمة واحدة أو تحول معين، مما ترك فجوة في فهم أي الخصائص الأكثر تأثيرًا.

لملء هذه الفجوة، أجرى الباحثون مقارنة محكومة، حيث تم تثبيت عملية الاسترجاع، وجرى تعديل تمثيلات الوثائق المسترجعة. قاموا بمقارنة تمثيل أساسي مع ثلاث عشرة تحويلة مختلفة تتراوح بين الاختيار والتلخيص وإعادة الصياغة، تشمل نسخ تعتمد على الاستعلام وأخرى مستقلة.

تضمنت الدراسة أربعة مولدات، وقام الباحثون بقياس دقة الإجابات واحتفاظ الإجابة، أي مدى استمرارية الوثيقة التي تحتوي على إجابة معروفة في دعم هذه الإجابة بعد التغيير. وقد أظهرت النتائج أن احتفاظ الإجابة هو العامل الأكثر أهمية في تحديد دقة المولدات.

وعلى وجه الخصوص، عندما يكون الاحتفاظ مرتفعًا، فإن تأثير صياغة التمثيل، هيكله، طوله، واعتماده على الاستعلام أصبح أقل أهمية. مما يعني أن التحسينات في الدقة النسبية لتقنيات سابقة يمكن تفسيرها جزئيًا من خلال مدى جودة تلك التقنيات في الحفاظ على المحتوى الذي يحتوي على الإجابة.

إجمالًا، تظهر هذه الدراسة أهمية تصميم نظم RAG بحيث تحافظ على جودة الأخبار والمعلومات، مما يمهد الطريق لمزيد من الدراسات حول كيفية تحسين الأداء العام لأنظمة الذكاء الاصطناعي.