في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) ([AI](/tag/ai))، يعد [التعلم التعزيزي](/tag/[التعلم](/tag/التعلم)-التعزيزي) ([Reinforcement Learning](/tag/reinforcement-learning)) أحد المجالات الأكثر إثارة للتطورات. ومع ذلك، ظهرت الحاجة لتقنيات جديدة تخدم هذا المجال، وهو ما دفع [فريق](/tag/فريق) من [الباحثين](/tag/الباحثين) إلى [ابتكار](/tag/ابتكار) طريقة جديدة تعتمد على متوسط الـ Logits بين [سياسة](/tag/سياسة) مرجعية ثابتة ([SFT](/tag/sft)) وسياسة قابلة للتدريب. تعتبر هذه الطريقة جزءًا من [تحسين](/tag/تحسين) [سياسة](/tag/سياسة) Relative [Policy Optimization](/tag/policy-optimization) ([GRPO](/tag/grpo)).
تتناول هذه الطريقة القابلية للتدريب من خلال دمج [سياسة](/tag/سياسة) معينة مع مرجع ثابت، مما يمكن النموذج من استخدام خبرات السياسة القابلة للتدريب مع الحفاظ على [ميزات](/tag/ميزات) [التنسيق](/tag/التنسيق) التي توفرها [تقنية](/tag/تقنية) [SFT](/tag/sft). هذا [الدمج](/tag/الدمج) يوفر أغراضًا متعددة، بما في ذلك [تحسين الدقة](/tag/[تحسين](/tag/تحسين)-[الدقة](/tag/الدقة)) دون الحاجة إلى [أنظمة](/tag/أنظمة) التعزيز المعقدة مثل Kullback Leibler ([KL](/tag/kl)) regularization.
المقاييس والأداء
تم [تقييم](/tag/تقييم) الطريقة الجديدة على ثلاثة [اختبارات](/tag/اختبارات) رئيسية: MATH وcn-k12 وMMLU، حيث أظهرت النتائج أن [دقة النماذج](/tag/[دقة](/tag/دقة)-[النماذج](/tag/النماذج)) التي استخدمت [التقنية](/tag/التقنية) الجديدة قد تفوقت أو كانت على الأقل مماثلة للدقة الناتجة عن [نموذج](/tag/نموذج) [GRPO](/tag/grpo) التقليدي مع استخدام الـ [KL](/tag/kl).
[مستقبل الذكاء الاصطناعي](/tag/[مستقبل](/tag/مستقبل)-الذكاء-الاصطناعي)
إن هذه [الابتكارات](/tag/الابتكارات) ليست فقط تحولًا تقنيًا، بل تمثل خطوة [نحو](/tag/نحو) مستقبلٍ تتمكن فيه [تقنيات الذكاء الاصطناعي](/tag/[تقنيات](/tag/تقنيات)-الذكاء-الاصطناعي) من إنجاز مهام أكثر تعقيدًا بكفاءة أكبر. في عصر سريع التطور، تبقى الأسئلة مفتوحة: كيف ستؤثر هذه [التقنيات الجديدة](/tag/التقنيات-الجديدة) على [مستقبل الذكاء الاصطناعي](/tag/[مستقبل](/tag/مستقبل)-الذكاء-الاصطناعي) وتطبيقاته؟
ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).
ثورة في التعلم التعزيزي: كيفية تحسين نماذج اللغات الضخمة باستخدام تقنية SFT عبر متوسط الـ Logits
كشف الباحثون عن طريقة مبتكرة لتحسين التعلم التعزيزي (Reinforcement Learning) من خلال دمج تقنية SFT. هذه الطريقة تمنح نماذج اللغات الضخمة (LLMs) دقة أعلى في إنجاز المهام. زيفوا تطور الذكاء الاصطناعي!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
