مع تزايد استخدام النماذج اللغوية الكبيرة (Large Language Models) في برمجيات التحقق الرياضي مثل Lean 4، يصبح من الضروري تطوير أساليب فعالة تضفي قيمة حقيقية على هذه التقنيات. حديثنا اليوم عن إجراء جديد يسمى "قيمة التوافق المتوقع" (Expected Value Alignment) الذي يمثل خطوة متقدمة نحو تحسين استجابة هذه الأنظمة.
عادةً ما تتطلب زيادة كفاءة هذه الأنظمة استخدام نماذج مكافآت عملية (Process Reward Models) قادرة على تقييم خطوات التفكير المتوسطة. ومع ذلك، كانت التصاميم الحالية لنماذج المكافآت تواجه تحديات عملية، حيث توفر نماذج قيمة الرأس (Value-head models) نتائج مستمرة ولكنها تتطلب تغييرات على واجهة النموذج، بينما تحافظ نماذج المكافآت التوليدية (Generative Reward Models) على المبررات النصية ولكنها تفشل في التوافق مع الانحدار للأرقام العائمة.
تقدم EVA حلاً مبتكرًا يحافظ على ناتج السطح منفصلًا – حيث يتم استخراج درجات مستمرة من توزيع رموز النموذج. تقوم هذه الطريقة بإصدار درجات صحيحة في تنسيق JSON منظم، وتحسب درجة مستمرة كمتوسط عبر اللوجيتات الخاصة بالرموز المميزة.
عند دمج هدف نمذجة اللغة السببية مع خسارة متوسط المربعات المساعدة على هذه القيم المتوقعة، تتجلى فعالية EVA بشكل مثير. تم تنفيذ هذا النهج في نموذج "لايبنيز" (Leibniz) المخصص للتحقق الرسمي باستخدام Lean 4، مما يتيح تقييمه ضد أسس النمذجة بدون مكافآت. وتحمل هذه العملية نتائج واعدة، حيث أظهرت تقييمات الأداء أن استخدام الدرجات المستندة إلى اللوجيتات المستمرة يقلل بشكل كبير من آثار التقطيع، ويحافظ في الوقت نفسه على القابلية للتفسير للنقد التوليدي.
في عصر المعلومات والتكنولوجيا، تتعاظم أهمية هذه الابتكارات. كيف ترون تأثير أسلوب EVA على مستقبل النماذج اللغوية الكبيرة؟ شاركونا آراءكم في التعليقات!
كيفية تعزيز نماذج المكافآت باستخدام قيمة التوافق المتوقع في تطور الرياضيات الرسمية!
تقدم مقاربة قيمة التوافق المتوقع (EVA) نموذج مكافآت مبتكر لتحسين تجربة النماذج اللغوية الكبيرة (LLMs) في التحقق الرياضي الرسمي. يتيح هذا الابتكار تحسين جودة التقييم مع الحفاظ على الواجهة النصية القابلة للتفسير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
