في عالم الذكاء الاصطناعي، تُعتبر نماذج اللغة الكبيرة (Large Language Models) محورية في تطوير التطبيقات الذكية. ومع ذلك، يواجه الباحثون تحديات في إدارة عمليات التفكير على المدى الطويل. هنا تأتي أهمية تقنية ReSum، التي يتمحور حولها هذا المقال.

تقنية التعلم المعزز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) تُعتبر إحدى الأساليب الأساسية لتعزيز عمليات التفكير طويلة المدى في نماذج اللغة. ولكن الأساليب الحالية غالباً ما تشجع على جولات تفكير طويلة دون ضرورة، مما يؤدي إلى تدهور التماسك في reasoning وضياع الميزانية المتاحة من السياق.

لمعالجة هذه المشكلة، يقدم العلماء إطار عمل ReSum الذي يمكّن نماذج اللغة الكبيرة من ضغط وتنظيم مسارات تفكيرها من خلال القدرة على التلخيص الذاتي. تشير النتائج الأولية للدراسات إلى أن التلخيص الذاتي يُ stabilizes عملية التوليد من خلال تقليل حدة الفوضى على مستوى الرموز، ويُظهر أن إدخال عبارة "التلخيص" يمكن أن يقلل بشكل كبير من الأخطاء الناتجة عن مسارات غير صحيحة.

يعتمد ReSum آلية جولات تكيفية ذات وعي بالتلخيص، تعمل على تقييم ما إذا كان استخدام التلخيص الذاتي مُفيداً في عملية التفكير الجارية. عندما يقوم النموذج بفتح التلخيص الذاتي، يُخفي ReSum عبارة التلخيص لإنشاء فرع تناقضي؛ وفي مواضع غير التلخيص، يتم إدخال العبارة بشكل عشوائي لإنشاء فرع مطابق. كما تم تصميم ميزة إضافية بحيث تتيح مقارنة أكثر تفصيلاً بين مسارات الجولات التناقضية.

تظهر التجارب الواسعة أن تقنية ReSum تعزز الأداء بمعدل 4% مع تقليل طول الجولات بنسبة 18.6%. يعتبر هذا التطور خطوة مهمة في تحسين فعالية نماذج اللغة الكبيرة وإيجاد تنظيم أفضل للمعرفة.