في عالم الذكاء الاصطناعي، يمثل تدريب نماذج اللغات الكبيرة (LLMs) على المهام الغير قابلة للتحقق تحديًا حقيقيًا، حتى في ظل توفر إجابات مرجعية بجودة معقولة. ومن هنا، تم تقديم إطار عمل جديد للتعلم المعزز (RL) يركز على تحسين التفكير المباشر. هذا الإطار يتضمن مكونين رئيسيين: أولاً، تحسين مكافأة التفكير الانعكاسي (Reasoning Reflection Reward) على مستوى الرموز؛ وثانيًا، تطبيق معايير التقييم (rubric-gating) كقيود على مستوى مجموعة التشغيل.
مكافأة التفكير الانعكاسي تقيس يقين النموذج بالنسبة للإجابة المرجعية باستخدام تسلسل التفكير (chain-of-thought) الخاص به، حيث يتم التركيز بشكل خاص على الرموز التي تحمل تنوعًا عاليًا عبر مجموعات التشغيل. نطلق على هذه الرموز "رموز التفكير الانعكاسي"، لأنها تعكس دقة الفكر بشكل أفضل من غيرها من الرموز ذات التباين المنخفض. إذاً، كيف يساهم تباين هذه الرموز في تحسين التعلم؟
بالإضافة إلى ذلك، يوفر تصفية تستبعد الاستفسارات التي لا تحتوي على معلومات كافية لتحقيق التعلم المقارن. وتكمل معايير التقييم مكافأة التفكير الانعكاسي من خلال تنفيذ معايير صارمة لتقييم النتائج النهائية.
تطبيق هذا الإطار على أربعة مجموعات بيانات تغطي مجالات متنوعة مثل الكتابة العلمية، الطب، العقود القانونية، والتمويل أثبت فعاليته، حيث أظهر تحسنًا ملحوظًا في الأداء مقارنة بالأساليب التقليدية، مع التعلم بشكل أسرع وأكثر كفاءة.
إن دمج التفكير المنظم مع التعلم المدعوم يعزز الاستفادة من نماذج اللغات الكبيرة بشكل لم يكن متوفرًا سابقًا، ويظهر كيفية تطويرها للمساهمة في حلول أكثر دقة وكفاءة في مجالات متعددة.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
تحسين التفكير المباشر: كيف تعزز نماذج اللغات الكبيرة دقة التفكير في المهام الغير قابلة للتحقق؟
يسلط هذا المقال الضوء على إطار تدريب التعلم المعزز الذي يعزز دقة التفكير في نماذج اللغات الكبيرة. مع التركيز على مكافآت التفكير الانعكاسي، يحقق هذا النظام نتائج مبهرة عبر مجموعة من المجالات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
