في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) الحديث، تتزايد الحاجة إلى [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) وزيادة [كفاءة](/tag/كفاءة) التعلم، ويأتي دور [تقنية](/tag/تقنية) [تحسين السياسة](/tag/[تحسين](/tag/تحسين)-السياسة) الجماعية التكيفية ([AGPO](/tag/agpo)) لمواجهة هذه التحديات.

استنادًا إلى [التعلم](/tag/التعلم) المعزز، يتمثل هدف [AGPO](/tag/agpo) في تعزيز قدرة [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) مثل Qwen2.5-14B على [التفكير](/tag/التفكير) والاستنتاج بشكل أكثر فعالية. بينما كانت [تقنيات](/tag/تقنيات) مثل [PPO](/tag/ppo) وGRPO تعتمد على إعدادات ثابتة فيما يتعلق بقص [الأداء](/tag/الأداء) ودرجة الحرارة عند التشفير، فإن [AGPO](/tag/agpo) يقدم طريقة مبتكرة حيث يعتمد على [إحصاءات](/tag/إحصاءات) جماعية لضبط مستوى التحديث والاستكشاف بشكل متكيف.

يستخدم [AGPO](/tag/agpo) حالة إحصائية مستقاة من المسبار لتشغيل جهازين توجيهيين، الأول هو القص المتكيف، حيث يتم ضبط حجم منطقة [الثقة](/tag/الثقة) بناءً على [تشتت](/tag/تشتت) [المكافآت](/tag/المكافآت) والانحراف. الثاني هو [عينة](/tag/عينة) حرارة متكيفة ثنائية الاتجاه، التي تتكيف مع درجة حرارة قاعدة [التشفير](/tag/التشفير) بناءً على [عدم اليقين](/tag/عدم-اليقين).

وقد أظهرت الاختبارات على تسع مجموعات من [بيانات](/tag/بيانات) المسائل الرياضية في اللغتين الإنجليزية والصينية، أن Qwen2.5-14B المدرب باستخدام [AGPO](/tag/agpo) يتفوق على كل من [PPO](/tag/ppo) وGRPO في نفس [ميزانية](/tag/ميزانية) [توكنات](/tag/توكنات) الإنتاج، حيث حقق 67.3% في اختبار GSM8K و40.5% في اختبار MATH. الأهم من ذلك، أن هذه المزايا يمكن نقلها إلى [نماذج](/tag/نماذج) أخرى مثل [Llama](/tag/llama)-3-8B وGemma-2-9B، مما يثبت تكاملية كلا من التقنيتين اللتين تقدمهما [AGPO](/tag/agpo).

للراغبين في [استكشاف](/tag/استكشاف) هذه التقنية، يمكنكم العثور على [الكود](/tag/الكود) المصدر متاحًا للجمهور [عبر](/tag/عبر) الرابط التالي: [https://github.com/wandugu/paper_agpo]. مع التطورات المستمرة في مجال الذكاء الاصطناعي، يبقى السؤال مفتوحًا: ما هي المزايا الأخرى التي يمكن أن تجلبها هذه الأساليب الحديثة لمستقبل [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات).