في عالم الذكاء الاصطناعي، يعتبر تحسين السياسات استراتيجية حاسمة لتحسين أداء النماذج بعد التدريب. وقد أثبتت تقنية التحسين الذاتي للسياسات (Self-Distilled Policy Optimization) فعاليتها، لكن كانت تعاني من بعض التحديات المرتبطة بكيفية الثقة في خطوات التحديث. كل خطوة تصحيح قد تكون مفيدة في بعض الحالات، بينما تكون مضللة في حالات أخرى، مما يتسبب في عدم استقرار عملية التدريب عند استخدام خطوة ثابتة.

استلهم الباحثون من الديناميات السائلة اللزجة لتطوير مفهوم جديد يعرف بتحسين السياسات المدعومة بالفيزياء (Physics-Guided Policy Optimization, PGPO). يقوم هذا النظام بدمج معلومات مستمدة من تقديرات المعلومات المتبادلة بين التنبؤات التي يقدمها المتعلم الذاتي والمعلم، مما يسهل عملية تحديد حجم الخطوات اللازمة في عملية التحديث.

الدراسة أظهرت أن هذه الآلية لا تحافظ فقط على موثوقية التحسين، ولكنها توفر أيضاً زيادة مهمة في الأداء. تمت التجارب على مجموعة بيانات Science-QA، حيث تفوقت PGPO على SDPO في ثلاثة من أصل أربعة مجالات، محققة مكاسب تصل إلى 4.5 نقطة. والأهم من ذلك، أن PGPO استمرت في تحقيق نتائج مستقرة في ظروف كان فيها SDPO تعاني من انهيار في الأداء.

إن تحسين السياسات المدعومة بالفيزياء يمثل خطوة هامة نحو تصميم أنظمة ذكاء اصطناعي أكثر كفاءة، مما قد يفتح آفاق جديدة في عالم النمذجة والتعلم الآلي. إن هذا النوع من الابتكار يعزز من القدرة التنافسية في مجموعة واسعة من التطبيقات الذكية التي تعتمد على التعلم والتحسين الذاتي.