في خضم تطور الذكاء الاصطناعي، يبقى التفكير طويل السياق (Long-context reasoning) تحدياً جوهرياً يواجه نماذج اللغات الكبيرة (Large Language Models). فهذه النماذج غالباً ما تعاني في تحديد ودمج المعلومات الأساسية من محتوى شديد التشويش. في هذا السياق، يظهر LongTraceRL كحل واعد من خلال استخدام تقنية التعلم المعزز بمكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards).
اللجوء إلى أساليب تعليمية مبتكرة يُعد حاجة ملحة، حيث تسلط طرق التعلم الحالية الضوء على مشكلات مثل وجود مُعوقات ذات تداخل منخفض ونقص في إشارات المكافآت المبنية على النتائج فقط. تتناول LongTraceRL هذه النقاط الضعيفة من خلال استراتيجيات مبتكرة.
لإنشاء البيانات، تعتمد LongTraceRL على طرح أسئلة متعددة القفزات عبر طرق عشوائية في المخططات المعرفية، مستخدمةً مسارات وكلاء البحث لبناء مُعوقات متعددة المستويات. هذه المُعوقات تشمل الوثائق التي قرأها الوكيل ولكن لم يتم ذكرها، مما يزيد من صعوبة السياق التدريبي مقارنةً بالأساليب التقليدية.
وتتضمن طريقة مكافأة LongTraceRL استخدام مكافآت مسنودة بالمعايير، حيث تتمثل في استخدام الكيانات الذهبية على طول سلسلة التفكير من أجل إشراف دقيق على العملية. هذه المكافأة تُمنح فقط للإجابات الصحيحة، مما يساعد في تصنيف جودة التفكير بين الإجابات الصحيحة ويمنع التلاعب بالمكافآت.
تظهر التجارب على ثلاثة نماذج تفكير (LLMs) بأحجام تتراوح بين 4 إلى 30 مليار نموذج عبر خمسة معايير طويلة السياق أن LongTraceRL يتفوق باستمرار على المعايير السابقة، مما يشجع على التفكير المنطقي المعتمد على الأدلة. يمكنكم الاطلاع على الأكواد والبيانات والنماذج المتاحة عبر الرابط: github.com/THU-KEG/LongTraceRL
اكتشاف LongTraceRL: تعزيز التفكير طويل السياق باستخدام مكافآت مبتكرة!
تقدم LongTraceRL نهجاً ثورياً لتحسين نماذج اللغات الكبيرة في معالجة المعلومات المعقدة. من خلال استخدام مكافآت دقيقة مستندة إلى مسارات بحث الوكيل، تحقق هذه الطريقة تقدمًا ملحوظاً في جودة التفكير المنطقي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
