في عالم الذكاء الاصطناعي، تتزايد أهمية [النماذج اللغوية الكبيرة](/tag/[النماذج](/tag/النماذج)-اللغوية-الكبيرة) ([LLMs](/tag/llms)) وقدرتها على [التفكير والتحليل](/tag/[التفكير](/tag/التفكير)-والتحليل) المنطقي. وقد أظهرت [الدراسات الحديثة](/tag/الدراسات-الحديثة) أن [التعلم التعزيزي](/tag/[التعلم](/tag/التعلم)-التعزيزي) مع [المكافآت](/tag/المكافآت) القابلة للتحقق ([RLVR](/tag/rlvr)) يُحسن [الأداء](/tag/الأداء) في مهام [التفكير](/tag/التفكير) بشكل موثوق، إلا أن النتائج في بعض [التطبيقات](/tag/التطبيقات) تثير تساؤلات حول فعالية هذه [التقنية](/tag/التقنية).
تتناول [دراسة](/tag/دراسة) جديدة، المنشورة في arXiv، تساؤلات هامة حول ما إذا كانت [تقنيات](/tag/تقنيات) **RLVR** بالفعل تمكّن [النماذج](/tag/النماذج) من اكتساب [مهارات جديدة](/tag/[مهارات](/tag/مهارات)-جديدة) أو أنها فقط تُحسّن [كفاءة](/tag/كفاءة) العمليات الموجودة مسبقاً. يظهر [التحليل](/tag/التحليل) أن المشكلة تكمن في [قيود](/tag/قيود) البنية الأساسية لأهداف RLVR، مما يؤدي إلى عدم كفاية الضغط الاستكشافي.
يُعتبر تقيد إجراء [تنظيم](/tag/تنظيم) العكس-[KL](/tag/kl) عاملاً رئيسيًا في هذا السياق، حيث يعمل على [استقرار](/tag/استقرار) عملية [التدريب](/tag/التدريب), لكنه أيضاً يعوق ظهور أنماط [تفكير](/tag/تفكير) بديلة. ومع ذلك، تُظهر [الأبحاث](/tag/الأبحاث) أن إزالة هذا العامل أو استبداله بعامل [تنظيم](/tag/تنظيم) أمامي-[KL](/tag/kl) لا يحل المشكلة، بل قد يؤدي إلى تفشي [سلوكيات](/tag/سلوكيات) سلبية أو توزيع الاحتمالات على مناطق غير مستهدفة.
هنا يأتي [الابتكار](/tag/الابتكار) مع إطار SAGE، الذي يسمح بتوسيع الدعم التجريبي بطريقة قابلة للتحكم من خلال إعادة تشكيل توزيع مرجعية [تنظيم](/tag/تنظيم) العكس-[KL](/tag/kl) باستخدام وظيفة [توجيه](/tag/توجيه). وقد أثبتت النتائج أن استخدام [SAGE](/tag/sage) يُحقق [تحسينات](/tag/تحسينات) ملموسة في الأداء، ليس فقط في [كفاءة](/tag/كفاءة) الفحص (pass@1) ولكن أيضًا في قدرات [التحليل](/tag/التحليل) الأعمق (pass@k) [عبر](/tag/عبر) [معايير](/tag/معايير) التحديات الرياضية الصعبة.
لمن يرغب في تجربة هذا الإطار أو [استكشاف](/tag/استكشاف) التفاصيل التقنية، يمكنكم زيارة [صفحة الكود الخاصة بنا على GitHub](https://github.com/tally0818/SAGE). ما رأيكم في هذه [الابتكارات](/tag/الابتكارات) المتقدمة في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا آراءكم.
ابتكار SAGE: كيف تعيد تشكيل قواعد الاستكشاف في التعلم التعزيزي لنماذج اللغة الكبيرة؟
تقدم دراسة حديثة إطار SAGE الذي يعزز من قدرات النماذج اللغوية الكبيرة (LLMs) على التفكير المنطقي من خلال تحسين تقنيات التعلم. هذا الابتكار يقضي على القيود التقليدية ويحقق نتائج أفضل في التحديات الرياضية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
