في ظل التقدم المتسارع في مجال الذكاء الاصطناعي، تسلط دراسة حديثة الضوء على استخدام تقنيات متطورة تُعرف باسم 'المتوسطات التقديرية للوزن' (Extrapolative Weight Averaging) لتحسين نتائج البرمجة التنافسية. من المعلوم أن تقييم الأداء بين النماذج المدربة بشكل دقيق يمكن أن يكشف عن الحدود (frontiers) بين الأهداف المتنافسة، ولكن ما مدى فعالية تلك التقنيات في تحسين النقاط الجديدة المفيدة خلال مرحلة الاستدلال (inference) دون الحاجة إلى مزيد من التدريب على التعلم المعزز (RL)؟

تتطرق الدراسة إلى هذه النقطة المهمة من خلال تحليل البرمجة التنافسية، حيث تتطلب الاختبارات الخفية تحت قيود الوقت والذاكرة تحقيق دقة وظيفية وكفاءة حاسوبية. يبدأ الباحثون بدعم من تكوين مشترك، حيث يدربون نماذج تحت تغطية اختبارية متداخلة: المكافآت ذات التغطية المنخفضة تتطلب تجاوز اختبارات الإدخال الأصغر، بينما المكافآت ذات التغطية الأعلى تستلزم تجاوز اختبارات أكبر تدريجيًا.

تُظهر النتائج أن هناك حدودًا بين الدقة والكفاءة: في المشاكل الصعبة، يقلل التحسين من الفشل في الأداء لكنه يزيد من الفشل في تحقيق الدقة، مما يبقي نسبة الحلول ثابتة تقريبًا. وأثبت الباحثون أن استخدام التداخل بين النماذج ذات التغطية المنخفضة والعالية يستعيد تلك الحدود، بينما يجري التقدير المتقدم لتمديدها إلى ما وراء النقاط المدربة.

شيء مثير للاهتمام هو أن هذه الحدود والتوسعات تظهر في ثلاث إعدادات استدلالية، بما في ذلك التفكير الخالص، واستخدام الأدوات، والترميز الوكلي، وذلك عبر مقاييس نمذجة مختلفة. تعني هذه التطورات أن تحريك النقاط على الحدود يكشف أي المشاكل يمكن حلها، مما يجعل النقاط المستخرجة تكمل استراتيجيات السياسة في مرحلة الاستدلال.

كما أظهرت النتائج أن الفرق باستخدام المتوسطات التقديرية للوزن تعزز التغطية وتحسن نسبة النجاح عند إجراء اختبارات LCB الصعبة، مما يتجاوز بنسبة 3.3% أعلى نسبة نجاح لنموذج مفرد عند ميزانية عينات مطابقة. تكشف هذه النتائج كيف أن استخدام تغطية الاختبارات المتداخلة في البرمجة التنافسية يساعد في إحداث الحدود التي يمكن أن تسير فيها المتوسطات التقديرية للوزن.