في عالم يتزايد فيه الاعتماد على الذكاء الاصطناعي، تبرز استراتيجية جديدة تُسمى PageLLM، التي تهدف إلى تحسين كيفية ظهور نتائج البحث والتوصيات لمستخدمي الإنترنت. تعتمد هذه الاستراتيجية على نماذج اللغة الكبيرة (Large Language Models) لمعالجة الصفحة كعملية توليد تسلسلي.

إحدى أكبر التحديات التي يواجهها تطبيق نماذج اللغة الكبيرة في تحسين الصفحات الكاملة (Whole-Page Optimization) هو الحاجة إلى تقييمات بشرية مكلفة، بالإضافة إلى التباين في التفاصيل بين تنسيق الصفحات وكفاءة عناصر الصفحة. عبر هذا العمل، تمكنا من إثبات أن هذين التحديين مرتبطان؛ حيث يمكن للتغذية الراجعة غير المباشرة من المستخدمين أن تكون كافية، شريطة أن يتم تقسيم إشارات المكافآت إلى تفصيلات مكملة.

تسعى PageLLM إلى معالجة هذه المسألة من خلال تقديم إطار عمل يعتمد على نظام مكافآت متنوع، يشمل:
1. تحويل التغذية الراجعة غير المباشرة إلى أربع عائلات من تفضيلات متناقضة تتعلق بالملاءمة والترتيب والتنوع والتكرار.
2. تعلم مكافأة على مستوى الصفحة ومكافأة على مستوى العناصر الصغيرة، مما يلتقط التبادلات الحساسة لمواقع التفاعل.
3. دمج كلا المكافأتين في عملية تحسين تعتمد على التعزيز العميق للنوع (PPO-based Reinforcement Learning from Human Feedback).

أظهرت التجارب التي أُجريت على سبعة فئات من أمازون مقارنةً بأحد عشر معيارًا أن كل مكافأة منفصلة غير كافية. فإذا تم تجاهل إشارة مستوى الصفحة أو مستوى العناصر، انخفضت نسبة ناتج الدرجات العميقة (NDCG@100) بنسبة 17.8% و15.2% على التوالي. في حين أن المكافأة المشتركة حسنت هذه النتيجة بنسبة تصل إلى 46.8%.

وقد تمت تجربة PageLLM في اختبار A/B على 10 ملايين مستخدم، حيث أدت إلى زيادة في قيمة البضائع المباعة (GMV) بنسبة 0.44% ومعدل النقر بنسبة 0.14%، مما يثبت كفاءة نظام المكافآت المتعدد الأبعاد المستمد من التغذية الراجعة غير المباشرة في إنتاج تحسين الصفحة.

سيتم نشر الكود والبيانات في مستودع مجهول المصدر.