في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) الحديث، تتزايد الحاجة إلى [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) وزيادة [كفاءة](/tag/كفاءة) التعلم، ويأتي دور [تقنية](/tag/تقنية) [تحسين السياسة](/tag/[تحسين](/tag/تحسين)-السياسة) الجماعية التكيفية ([AGPO](/tag/agpo)) لمواجهة هذه التحديات.
استنادًا إلى [التعلم](/tag/التعلم) المعزز، يتمثل هدف [AGPO](/tag/agpo) في تعزيز قدرة [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) مثل Qwen2.5-14B على [التفكير](/tag/التفكير) والاستنتاج بشكل أكثر فعالية. بينما كانت [تقنيات](/tag/تقنيات) مثل [PPO](/tag/ppo) وGRPO تعتمد على إعدادات ثابتة فيما يتعلق بقص [الأداء](/tag/الأداء) ودرجة الحرارة عند التشفير، فإن [AGPO](/tag/agpo) يقدم طريقة مبتكرة حيث يعتمد على [إحصاءات](/tag/إحصاءات) جماعية لضبط مستوى التحديث والاستكشاف بشكل متكيف.
يستخدم [AGPO](/tag/agpo) حالة إحصائية مستقاة من المسبار لتشغيل جهازين توجيهيين، الأول هو القص المتكيف، حيث يتم ضبط حجم منطقة [الثقة](/tag/الثقة) بناءً على [تشتت](/tag/تشتت) [المكافآت](/tag/المكافآت) والانحراف. الثاني هو [عينة](/tag/عينة) حرارة متكيفة ثنائية الاتجاه، التي تتكيف مع درجة حرارة قاعدة [التشفير](/tag/التشفير) بناءً على [عدم اليقين](/tag/عدم-اليقين).
وقد أظهرت الاختبارات على تسع مجموعات من [بيانات](/tag/بيانات) المسائل الرياضية في اللغتين الإنجليزية والصينية، أن Qwen2.5-14B المدرب باستخدام [AGPO](/tag/agpo) يتفوق على كل من [PPO](/tag/ppo) وGRPO في نفس [ميزانية](/tag/ميزانية) [توكنات](/tag/توكنات) الإنتاج، حيث حقق 67.3% في اختبار GSM8K و40.5% في اختبار MATH. الأهم من ذلك، أن هذه المزايا يمكن نقلها إلى [نماذج](/tag/نماذج) أخرى مثل [Llama](/tag/llama)-3-8B وGemma-2-9B، مما يثبت تكاملية كلا من التقنيتين اللتين تقدمهما [AGPO](/tag/agpo).
للراغبين في [استكشاف](/tag/استكشاف) هذه التقنية، يمكنكم العثور على [الكود](/tag/الكود) المصدر متاحًا للجمهور [عبر](/tag/عبر) الرابط التالي: [https://github.com/wandugu/paper_agpo]. مع التطورات المستمرة في مجال الذكاء الاصطناعي، يبقى السؤال مفتوحًا: ما هي المزايا الأخرى التي يمكن أن تجلبها هذه الأساليب الحديثة لمستقبل [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات).
تحسين السياسة الجماعية التكيفية: كيف يخطو الذكاء الاصطناعي خطوة نحو الأذكى؟
تقدم تقنية تحسين السياسة الجماعية التكيفية (AGPO) قفزة نوعية في تطوير نماذج لغوية ضخمة، حيث تعزز القدرة على التعلم. تعرف على كيفية تحسين الأداء وتحقيق نتائج أفضل باستخدام الأساليب الجديدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
