تتزايد أهمية نماذج إعادة الترتيب (Rerankers) في تحسين نتائج البحث في أنظمة الذكاء الاصطناعي، حيث تساهم في رفع مستوى دقة المعلومات المستخرجة. ورغم ذلك، كان هناك تحدي كبير يتجلى في أن هذه النماذج غالبًا ما تم تحسينها استنادًا إلى تسميات ذات صلة يُعتمد عليها من قبل البشر بطريقة منفصلة عن عملية التوليد المستقبلية. هذه الفجوة تؤدي إلى عدم التوافق بين النتائج المعتمدة على معايير استرجاع المعلومات، وبين فائدة هذه النتائج عند استخدامها من قبل نماذج اللغات الضخمة (Large Language Models) مثل (LLMs).
للتغلب على هذه المشكلة، أعلنت الدراسة الجديدة عن تقديم إطار عمل يُعرف باسم تحسين تفضيل إعادة الترتيب (RRPO)، الذي يعتمد على التعلم المعزز (Reinforcement Learning). هذا الإطار يُمكن من تحقيق توافق مباشر بين عملية إعادة الترتيب وجودة التوليد للنموذج. يتم تقديم إعادة ترتيب النتائج كعملية صناعة قرار تسلسلية، حيث يتم تحسين مدى فائدة السياق باستخدام ملاحظات من نماذج اللغات الضخمة، مما يلغي الحاجة إلى التقييمات البشرية المكلفة.
تضمنت الأبحاث تجربة مكثفة على معايير المعرفة المعقدة، وأظهرت النتائج أن (RRPO) يتفوق بشكل ملحوظ على النماذج التقليدية وحتى على نموذج إعادة الترتيب القوي (RankZephyr). كما أظهرت التحليلات اللاحقة أن هذا الإطار يتمتع بمرونة كبيرة؛ إذ يمكن تطبيقه بسهولة على قراء متنوعين مثل (GPT-4o)، ويعمل بتكامل مع وحدات توسيع الاستعلام مثل (Query2Doc)، ويظل قوياً حتى عند تدريبه بمشرفين غير دقيقين.
تحسين أداء إعادة ترتيب النتائج باستخدام التعلم المعزز: ثورة جديدة في الذكاء الاصطناعي!
طرحت دراسة جديدة إطار عمل مبتكر يسمى تحسين تفضيل إعادة الترتيب (RRPO) الذي يستخدم التعلم المعزز لتحسين جودة النتائج في نماذج الذكاء الاصطناعي. هذه الطريقة تتغلب على التحديات التقليدية في إعادة ترتيب المستندات، مما يزيد من دقة الإجابات المولدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
