تعتبر العمليات العقلية المعقدة التي تشمل معالجة البيانات الطويلة دقيقة وصعبة التحليل في مجال الذكاء الاصطناعي. في هذا الإطار، تم تقديم نموذج جديد يدعى "Maven"، يهدف إلى تحسين آليات التعلم في سياقات البيانات الطويلة عبر استغلال مفهوم مكافآت تحديد الأدلة (Evidence-State Rewards) التي تُحدد بناءً على الحالة!

تحتاج نماذج الذكاء الاصطناعي في معالجة البيانات الطويلة إلى القدرة على تحديد، وتعديل، وتجميع الأدلة الموزعة عبر مدخلات طويلة. بيد أن الأساليب الحالية في تعلم التعزيز (Reinforcement Learning) الخاصة بالمحتوى الطويل، تميل عادةً إلى مكافأة الإجابات النهائية أو استخراج الأدلة الثابتة، مع تقديم ملاحظات قليلة حول كيفية تأثير الإجراءات المتوسطة على تغيير حالة الأدلة.

يُعرف نموذج Maven بأنه إطار قوي يستخدم ذاكرة للأدلة القابلة للتعديل حيث يتم تحديد مكافأة تعتمد على الإجابة المشروطة على قيمة حالة الأدلة. يتم منح المكافآت للإجراءات على مستوى الحالة، حيث تُعطى نقاط للإجراءات الإضافية بناءً على غيرية الكسب ومساهمة الأثر الرجعي، وللإجراءات المرتبطة من خلال تآزر الأدلة، كما تُعطى المكافآت لإجراءات الحذف بعد تحسين دعم الإجابة بعد إزالة الأدلة المضللة.

تُخصص هذه المكافآت لتُعطى على فترات الإجراء المقابلة في مجموعة بيانات GRPO. أظهرت النتائج التي تم الحصول عليها عبر نماذج Llama وQwen على LongBench v2، LongReason، وRULER أن نموذج Maven يتفوق على الأساليب الأخرى المعتمدة فقط على النتائج أو على تحديد الأدلة، مما يُنتج مجموعات أدلة أكثر كفاءة وانخفاضًا في الاحتفاظ بالمُعطلات.

تبرز النتائج أهمية تحسين التنقل بين الأدلة بدلاً من الاستخراج السريع للأدلة. فالذكاء الاصطناعي بحاجة إلى نماذج مرنة وقابلة للتكيف تتفهم التعقيد السائد في المعلومات المتاحة.