في عالم الذكاء الاصطناعي، يمثل البحث الذاتي (Agentic Search) خطوة رئيسية نحو تمكين نماذج اللغة من حل المهام المعقدة بشكل أكثر فعالية. يستخدم البحث الذاتي استراتيجية اكتساب الأدلة الخارجية بشكل تكيفي على مدى عدة خطوات، لكن التحديات المتعلقة بمكافآت الأداء كشفت الحاجة إلى تقنيات تدريب أكثر كفاءة. هنا يأتي دور OASES (Outcome-Aligned Search-Evaluation Supervision)، وهو إطار مبتكر يحل هذه القضايا.
تعتمد OASES على مبدأ الحصول على مكافآت عملية تتماشى مع النتائج النهائية من خلال تقييم كيف تدعم كل حالة بحث متوسطة الإجابة على السؤال الأصلي. يميز هذا الإطار نفسه عن الطرق التقليدية التي تعتمد على الجوائز غير المرتبطة بشكل مباشر بالأهداف النهائية أو تلك التي تستخدم مقيمون ثابتون قد يصبحون غير فعالين مع تطور سياسات البحث.
من خلال التدريب المشترك بين سياسة البحث والمقيم، يتيح OASES للمقيم التكيف مع سلوك البحث المتطور وتقديم مكافآت عملية أكثر موثوقية. أظهرت التجارب على خمسة معايير متعددة الخطوات للإجابات (Multi-hop QA Benchmarks) أن OASES يتفوق باستمرار على الأسس القوية للتعلم المعزز (RL).
الابتكار في OASES لا يوفر فقط مكافآت دقيقة تهدف إلى تحسين الأداء، بل يعزز كذلك التدريب المتكامل الذي يضمن تطور المعلومات واكتساب المعرفة. يعتبر هذا الإطار خطوة مثيرة للاهتمام تُظهر كيف يمكن تحسين تقنيات الذكاء الاصطناعي لمواجهة التحديات المعقدة التي تتطلب مهارات بحث عالية.
OASES: إطار مبتكر لتدريب البحث الذاتي يتماشى مع النتائج النهائية
تقدم OASES نهجًا جديدًا لتحسين أداء نماذج اللغة في مهام البحث المعقدة عبر استراتيجيات تدريب قائمة على النتائج. هذه التقنية توفّر مكافآت عملية دقيقة تعزز من دقة البحث وتدريب عملي موثوق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
