في السنوات الأخيرة، أصبح التدريب على تحسين الذات (Self-Improvement Training) في نماذج الذكاء الاصطناعي مجالًا مثيرًا للتطور، حيث تسعى النماذج لتعلم من الحلول التي تقوم بإنشائها بنفسها. إلا أن هذا النوع من التدريب لم يكن خاليًا من التحديات؛ فقد واجه فشلًا شائعًا يتمثل في تدهور الدقة نتيجة تراكم الأخطاء في reasoning على مرّ جولات متعددة.
تتجلى مشكلة الاعتماد على الإجابات النهائية فقط في أنه يسمح للعمليات الحسابية المحتوية على أخطاء ولكنها تعطي نتائج صحيحة عشوائية بتلويث بيانات التدريب. لذا، تم اقتراح إطار عمل جديد يُعرف باسم Verified Self-Improvement (VSI)، والذي لا يعتمد فقط على إجاباتها النهائية، بل على سلامة كل خطوة من خطوات الحل.
تعتمد VSI على إعادة حساب الخطوات الحسابية باستخدام مكتبة sympy للتحقق من التناسق الوسيط وتطبيق القيود النطاقية. وعند تقييم VSI على مجموعة بيانات GSM8K باستخدام نموذج Qwen3-4B-Thinking عبر خمس جولات من تحسين الذات، أظهرت النتائج أن VSI ترفض حوالي 34% من حلول الإجابات الصحيحة، مما يساهم في عزل التخمينات المحظوظة.
هذا التقاط النقاء في البيانات يقود إلى تحسينات مستدامة في الدقة عبر جميع الجولات، حيث ارتفعت النسبة من 80.5% إلى 91%. كما أن تحويل فحوصات VSI إلى أزواج تفضيل DPO ساعد في تدريب النموذج على تمييز reasoning السليم من الإجابات المحظوظة، مما أدى إلى زيادة دقة المكافأة من 46% إلى 63%.
من خلال هذه الإطلالة على VSI، فإننا نشهد طريقة بسيطة وقابلة للتكرار لتحسين الذات القوي في حال توفر فحوصات reasoning الآلية. هل أنت متشوق لهذا الابتكار؟
ابتكار ثوري في التدريب على تحسين الذات: التحقق من الأسباب بدلاً من الإجابات!
تقدم تقنية تحسين الذات المعتمدة على التحقق من المنطق آفاقاً جديدة لتفادي الأخطاء المتكررة، مما يعزز دقة النماذج بنسبة تصل إلى 91%! هذا المقال يستعرض كيف استطاعت Verified Self-Improvement (VSI) تحسين معايير التدريب الذكي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
