في عالم الذكاء الاصطناعي، تتحد [طرق التعلم](/tag/طرق-[التعلم](/tag/التعلم)) المعزز مع الحاجة المتزايدة لأن تكون فعالة من حيث التكلفة. تظهر نتائج [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) حول [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) من [مكافآت](/tag/مكافآت) قابلة للتحقق ([Reinforcement Learning](/tag/reinforcement-learning) from Verifiable Rewards - [RLVR](/tag/rlvr)) أن هناك طرقًا مبتكرة لتحسين [الأداء](/tag/الأداء) بتكاليف منخفضة. يعتبر [نموذج](/tag/نموذج) [GRPO](/tag/grpo) مثالًا بارزًا في هذا الصدد، ولكن يعتمد بشكل كبير على [التوليد](/tag/التوليد) المستمر للبيانات [عبر](/tag/عبر) الإنترنت، مما يجعله مكلفًا وصعبًا في [التوسع](/tag/التوسع).
لكن، ماذا عن الخيارات البديلة؟ Direct Preference [Optimization](/tag/optimization) ([DPO](/tag/dpo)) يُعَدّ خيارًا أوفر، وقادرًا على العمل بكفاءة في بيئات غير متصلة، لكن أداءه غالبًا ما يكون أقل مقارنة بأساليب [GRPO](/tag/grpo) عند استخدام [بيانات](/tag/بيانات) مستمدة من [سياسات](/tag/سياسات) مُعَدَّلة بصورة باردة. لذا، ظهرت [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُدعى G2D، والتي تتضمن عملية من ثلاث مراحل تبدأ بإحماء قصير لنموذج GRPO، ثم إنشاء [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) تفضيلية ثابتة، وتنتهي بتعديل النموذج باستخدام [DPO](/tag/dpo).
أظهرت الاختبارات على [نماذج](/tag/نماذج) Qwen2.5-7B و [Llama](/tag/llama)-3.1-8B أن استخدام G2D مع [عدد](/tag/عدد) معتدل من الخطوات [عبر](/tag/عبر) الإنترنت (K) يمكن أن يتفوق على [GRPO](/tag/grpo) مع تقليل كبير في التكاليف. على سبيل المثال، حقق G2D في K=150 نسبة [نجاح](/tag/نجاح) بلغت 62.4% على مجموعة MATH-500، متفوقًا على [GRPO](/tag/grpo) بفارق 10.8% وتكلفة أقل بحوالي أربع مرات. في حين أن [النماذج](/tag/النماذج) الأخرى، مثل [Llama](/tag/llama)-3.1-8B، حققت أيضًا نتائج أفضل مع G2D.
تكمن المفاجأة في أن [الأداء](/tag/الأداء) ليس معتمدًا على [عدد](/tag/عدد) أزواج التفضيل، بل على مدى توفر [المعلومات](/tag/المعلومات) من [البيانات](/tag/البيانات) المستخدمة. جاءت نتائج [الدراسة](/tag/الدراسة) لتؤكد أن الإحماء المعتدل يمكن أن ينتج [بيانات](/tag/بيانات) أكثر قيمة، في حين أن الإحماء المفرط قد يؤدي إلى تسييس النتائج ويقلل من مستوى رغبتها على الفهم. هذه النتائج تدعو لإعادة النظر في [الفجوة](/tag/الفجوة) التاريخية بين [التعلم](/tag/التعلم) [عبر](/tag/عبر) الإنترنت وغير المتصل كمسألة تتعلق بتوفر [البيانات](/tag/البيانات).
هل تعتقد أن هذا الاتجاه الجديد سيشكل [مستقبل](/tag/مستقبل) [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز)؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!
كيف يمكن لطرق التعلم المعزز تحسين الأداء بتكاليف أقل؟
تستعرض دراسة حديثة كيفية تحسين أداء نماذج التعلم المعزز باستخدام تقنيات جديدة، حيث نجد أن استخدام بيانات ثابتة يعزز الكفاءة بتكاليف منخفضة. هذه النتائج تعكس تحولًا في فهم الفجوة بين التعلم عبر الإنترنت وغير المتصل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
