في عالم الذكاء الاصطناعي، تتحد [طرق التعلم](/tag/طرق-[التعلم](/tag/التعلم)) المعزز مع الحاجة المتزايدة لأن تكون فعالة من حيث التكلفة. تظهر نتائج [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) حول [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) من [مكافآت](/tag/مكافآت) قابلة للتحقق ([Reinforcement Learning](/tag/reinforcement-learning) from Verifiable Rewards - [RLVR](/tag/rlvr)) أن هناك طرقًا مبتكرة لتحسين [الأداء](/tag/الأداء) بتكاليف منخفضة. يعتبر [نموذج](/tag/نموذج) [GRPO](/tag/grpo) مثالًا بارزًا في هذا الصدد، ولكن يعتمد بشكل كبير على [التوليد](/tag/التوليد) المستمر للبيانات [عبر](/tag/عبر) الإنترنت، مما يجعله مكلفًا وصعبًا في [التوسع](/tag/التوسع).

لكن، ماذا عن الخيارات البديلة؟ Direct Preference [Optimization](/tag/optimization) ([DPO](/tag/dpo)) يُعَدّ خيارًا أوفر، وقادرًا على العمل بكفاءة في بيئات غير متصلة، لكن أداءه غالبًا ما يكون أقل مقارنة بأساليب [GRPO](/tag/grpo) عند استخدام [بيانات](/tag/بيانات) مستمدة من [سياسات](/tag/سياسات) مُعَدَّلة بصورة باردة. لذا، ظهرت [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُدعى G2D، والتي تتضمن عملية من ثلاث مراحل تبدأ بإحماء قصير لنموذج GRPO، ثم إنشاء [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) تفضيلية ثابتة، وتنتهي بتعديل النموذج باستخدام [DPO](/tag/dpo).

أظهرت الاختبارات على [نماذج](/tag/نماذج) Qwen2.5-7B و [Llama](/tag/llama)-3.1-8B أن استخدام G2D مع [عدد](/tag/عدد) معتدل من الخطوات [عبر](/tag/عبر) الإنترنت (K) يمكن أن يتفوق على [GRPO](/tag/grpo) مع تقليل كبير في التكاليف. على سبيل المثال، حقق G2D في K=150 نسبة [نجاح](/tag/نجاح) بلغت 62.4% على مجموعة MATH-500، متفوقًا على [GRPO](/tag/grpo) بفارق 10.8% وتكلفة أقل بحوالي أربع مرات. في حين أن [النماذج](/tag/النماذج) الأخرى، مثل [Llama](/tag/llama)-3.1-8B، حققت أيضًا نتائج أفضل مع G2D.

تكمن المفاجأة في أن [الأداء](/tag/الأداء) ليس معتمدًا على [عدد](/tag/عدد) أزواج التفضيل، بل على مدى توفر [المعلومات](/tag/المعلومات) من [البيانات](/tag/البيانات) المستخدمة. جاءت نتائج [الدراسة](/tag/الدراسة) لتؤكد أن الإحماء المعتدل يمكن أن ينتج [بيانات](/tag/بيانات) أكثر قيمة، في حين أن الإحماء المفرط قد يؤدي إلى تسييس النتائج ويقلل من مستوى رغبتها على الفهم. هذه النتائج تدعو لإعادة النظر في [الفجوة](/tag/الفجوة) التاريخية بين [التعلم](/tag/التعلم) [عبر](/tag/عبر) الإنترنت وغير المتصل كمسألة تتعلق بتوفر [البيانات](/tag/البيانات).

هل تعتقد أن هذا الاتجاه الجديد سيشكل [مستقبل](/tag/مستقبل) [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز)؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!