في عالم [تعلم](/tag/تعلم) الآلة، تظل خيارات السياسة وقواعد التحديث مترابطة بشكل مؤثر، حيث يمكن أن تؤدي القرارات المتعلقة بهذا المجال إلى [تحسينات](/tag/تحسينات) كبيرة في [الأداء](/tag/الأداء). تتمثل التحديات الرئيسية في استخدام [السياسات](/tag/السياسات) الغاوسية، التي على الرغم من سرعتها وسهولة معاملتها، إلا أنها تعاني من قلة [الكفاءة](/tag/الكفاءة) في [التوزيعات](/tag/التوزيعات) متعددة الأنماط.

من جهة أخرى، تقدم [السياسات](/tag/السياسات) الجينية إمكانيات تعبير أكبر، ولكنها غالبًا ما تتطلب أخذ عينات تكرارية أو تفتقر إلى تقديرات موثوقة للاعتدال (Entropy). في هذا السياق، يمكن أن تُعتبر [تحسين السياسات](/tag/[تحسين](/tag/تحسين)-[السياسات](/tag/السياسات)) بطريقة SAC كعملية للحد من تباين KL، حيث تعمل على [تعديل](/tag/تعديل) السياسة [نحو](/tag/نحو) توزيع [بولتزمان](/tag/بولتزمان) قائم على القيمة. بينما يُعتبر [الانحدار](/tag/الانحدار) المرآوي (Mirror Descent) طريقة لتنظيم كل [تحديث](/tag/تحديث) ضد السياسة السابقة.

من خلال دمج اعتدال [الانتروبيا](/tag/الانتروبيا) مع قيد [الانحدار](/tag/الانحدار) المرآوي، نفتح أفقا جديدا للبحث عن [السياسات](/tag/السياسات) العشوائية للتدفقات المتوسطة (Stochastic [MeanFlow](/tag/meanflow) Policies - SMFP). هذه [السياسات](/tag/السياسات) تستخدم [تحويلات](/tag/تحويلات) تدفق متوسط ([MeanFlow](/tag/meanflow) Transformation) لتكتشف أفعالًا جديدة [عبر](/tag/عبر) [ضوضاء](/tag/ضوضاء) غاوسية، مما يتيح قياسًا معتدلاً للاعتدال ويسمح بتدريب [السياسات](/tag/السياسات) ضمن إطار موحد يهدف إلى [تحسين](/tag/تحسين) [الاستكشاف](/tag/الاستكشاف) والاستقرار.

لقد تحققنا من فعالية SMFP [عبر](/tag/عبر) [عدد](/tag/عدد) من المعايير، حيث أثبتت [التجارب](/tag/التجارب) في سبع [اختبارات](/tag/اختبارات) [MuJoCo](/tag/mujoco) أن هذه [السياسات](/tag/السياسات) [تحقق](/tag/تحقق) تحسينًا ملحوظًا مقارنة بالأسس الغاوسية والجينية، مع الحفاظ على [كفاءة الاستدلال](/tag/[كفاءة](/tag/كفاءة)-[الاستدلال](/tag/الاستدلال)) من خطوة واحدة. عُدّ هذا التطور خطوة تقدم بارزة تفتح الأبواب لمزيد من [الابتكارات](/tag/الابتكارات) في مجال [تعلم التعزيز](/tag/[تعلم](/tag/تعلم)-التعزيز).