SU-CS238 OCT262023

Big day. Policy Gradient.
New Concepts Approximate Policy Evaluation and Roll-out utility Policy Optimization methods: Local Policy Search (aka Hooke-Jeeves Policy Search) Genetic Policy Search Cross Entropy Method Policy Gradient, Regression Gradient and Likelyhood Ratio Gradient Reward-to-Go Important Results / Claims monte-carlo policy evaluation Finite-Difference Gradient Estimation Linear Regression Gradient Estimate Questions for next office hour

[[curator]]

I'm the Curator. I can help you navigate, organize, and curate this wiki. What would you like to do?