تمثل تحسين نماذج اللغة ليتمكنوا من تقديم إجابات صحيحة والاستدلال السليم تحديًا مفتوحًا في عالم الذكاء الاصطناعي. في إطار هذا التحدي، كثيرًا ما تعتمد أساليب التعلم المعزز (Reinforcement Learning) على مكافآت قابلة للتحقق، مما يتيح تحسين النتائج النهائية فقط، ولكن هذا قد يؤدي إلى تدهور جودة التفكير، حيث يصبح الاستدلال أقل دقة أو اكتمالاً.
لذا، تقدم الأبحاث الجديدة مفهوم الإشراف على العملية القابلة للتحقق (Verified Process Supervision - VPS) كإطار عمل بعد التدريب يمكن استخدامه في المجالات القابلة للتحقق، حيث يتم تحسين الدقة في التوقعات وجودة التفكير بشكل مشترك.
تبدأ العملية بتطبيق تحسين مشرف مشروط لتوجيه نماذج اللغة نحو تنسيق استدلالي منظم، مما يسهل الاستخراج النحوي للادعاءات الوسيطة التي يتم تقييمها بناءً على مؤشرات الحقيقة الثابتة لتنفيذ مكافآت على مستوى العمليات.
ومع مواجهة صعوبات متنوعة في مهام الاستدلال، تم تقديم تقنية جديدة لوزن المكافآت بشكل تكييفي، حيث تعطي الأولوية للمكونات التي تحمل أكبر الأخطاء المتبقية، مما ينشئ منهجًا ضمنيًا للتعلم.
تم اختبار VPS في لعبة الشطرنج (Chess)، التي تعد منصة اختبار مضبوطة حيث يمكن التحقق من خطوات التفكير ضد إشارات المحرك بدقة. تبين أن التعلم المعزز القائم على الدقة فقط يعمق دقة الخطوات ولكنه يُدمر جودة التفكير، مما يزيد من خطأ نسبة الفوز بنسبة تصل إلى 112% ويقلل الاتساق الداخلي بنسبة تصل إلى 69%.
على النقيض، تحافظ VPS على الدقة بينما تحسن جودة التفكير بشكل كبير، مما يقلل من خطأ نسبة الفوز بنسبة تصل إلى 30% ويعيد الاتساق إلى مستويات قريبة من الإشباع. عند قياس الدقة المتطابقة، تفضل التقييمات العملية أيضًا النماذج التي خضعت للإشراف على العمليات.
تظهر التحليلات الإضافية في مساحة التفكير أن التعلم المعزز القائم على الدقة يساهم في الوصول إلى اختصارات تعتمد على الميزانية بدلًا من الاستدلال السليم متعدد الخطوات. هذه النتائج توضح أن الإشراف على العملية القابلة للتحقق يمكن أن يمكّن نماذج اللغة من التفكير بدقة وموثوقية في المجالات القابلة للتحقق.
ابتكار جديد: تعزيز دقة نماذج اللغة من خلال إشراف عملية موثوق!
تمثل الإشراف على العملية القابلة للتحقق (VPS) خطوة مهمة في تحسين نماذج اللغة لضمان الردود الصحيحة والتفكير السليم. هذه التقنية تعد بتعزيز دقة التوقعات وجودة المنطق بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
