في عالم الذكاء الاصطناعي، هل يمكن لجان من نماذج التفكير الضعيفة (Weak Reasoning Models) أن تصل إلى مستوى أداء نماذج أقوى بكثير؟ الإجابة على هذا السؤال تم استكشافها في دراسة جديدة قامت بتقديم نهج مبتكر يسمى "البحث المدعوم من قبل المدقق" (Verifier-backed Committee Search) كوسيلة لتعزيز الأداء في نماذج اللغات.
أساليب التحسين هنا لا تقوم فقط على فكرة "المزيد من الوكلاء يساعد"، بل تتجاوز ذلك لتشير إلى أن العينات تُظهر حلولاً صحيحة مخفية، بينما يجب على النقاد والمقارنين استعادة هذه الحلول بدون الوصول إلى المدقق الخفي.
في هذه الدراسة، تم فصل المفاهيم الأساسية مثل تغطية الاقتراح، التعرف المحلي، التقدم، والتنوع. وقد أثبت الباحثون أن التغطية يمكن تعزيزها عبر أخذ عينات متكررة، ولكنها بمفردها لا تستطيع خلق نقاد أو مقارنين موثوقين؛ حيث يتطلب التعزيز الموثوق وجود إشارة محلية إضافية مثل التنفيذ أو فحص الإثباتات أو اختبارات التحقق.
وتمت دراسة الأداء التجريبي، حيث أظهر نموذج (GPT-5.4 nano) قدرة على حل 67.0% من المهام. وعند استخدام نفس النموذج مع تنسيق النقاد والمقارنة، تم الوصول إلى دقة تبلغ 76.4% باستخدام 8 اقتراحات، مما يتطابق مع الأداء المستقل لكل من (Gemini 3 Pro) و(Claude Opus 4.5)، واقترب من أعلى حد ممكن 79.0%.
تظهر هذه النتائج أن العديد من التصحيحات الصحيحة موجودة بالفعل في مجموعة مقترحات النموذج الضعيف، أما التحدي الرئيسي فيتمثل في اختيارها بشكل صحيح. بينما تبقى بعض الفشلات مرتبطة بفشل في التغطية، مما يدل على وجود نقاط ضعف مشتركة لا يمكن إغلاقها عن طريق تحسين الاختيار بمفرده.