في عالم تطور الذكاء الاصطناعي، بات من الضروري أن نثق في الأساليب التي نستخدمها لتقييم دقة نماذج اللغات الكبيرة (Large Language Models). ومع ذلك، فإن السؤال الذي يطرح نفسه هو: كيف يمكننا التأكد من صحة تلك النماذج؟ هنا يأتي دور مفهوم "مناقشة المثبت والمدقق" (Prover-Verifier Deliberation - PVD) كحل مبتكر.

يستند هذا البروتوكول الجديد إلى نظرية الإثبات التفاعلية (Interactive Proof Theory)، ويُستخدم كآلية للتنبؤ الانتقائي، حيث يقدم إجابة مصحوبة بتقييم موثوق من حيث الثقة. في كل محادثة، يتولى المثبت الدفاع عن إجابة مرشحة من خلال طرح ادعاءات قابلة للتحقق، بينما يتحدى المدقق بتحديات محددة ويصدر أحكامًا تتراوح بين قبول (Accept)، تحدي (Challenge)، أو رفض (Reject).

تظهر التجارب الرئيسية، التي تم فيها استخدام نماذج مثل Claude Sonnet 4.6 كمثبت وClaude Haiku 4.5 كمدقق، على نظام GPQA Diamond، أن الإجابات المقبولة دون تعديل، والتي تُعرف بإسم "قبول + عدم تغيير" (Accept + No Change - ANC)، تمثل مجموعة ذات ثقة عالية. هذه المجموعة تتميز بدقة عالية تُقدر بنحو 30 نقطة مئوية عند مقارنتها بالإجابات غير القابلة للاعتماد.

تظهر التجارب الإضافية مع الأزواج الأخرى من النماذج مثل GPT وGemini أن دقة النتائج العالية يمكن أن تنتقل بين عائلات النماذج، بينما تلعب صرامة المدقق وكفاءته في المجال دورًا رئيسيًا في تحديد حجم الفجوة بين الاختيارات.

ولكن هناك خطر: عند استخدام أزواج غير متكافئة من المثبتين والمدققين، قد يحدث انهيار أو انقلاب في الإشارة الناتجة عن ANC، مما يعد إخفاقًا عمليًا يمكن أن ينشأ عندما يعمل المدقق خارج نطاق فعاليته.

يظهر هذا البحث كيف أن مناقشة المثبت والمدقق تقدم إشارة واضحة حول دفاعية الحجج لتوقعات انتقائية، وتعتبر خطوة مهمة نحو تعزيز موثوقية نماذج الذكاء الاصطناعي من خلال توفير إجابات دقيقة وآمنة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.