Basics:What is RL?

应用场景:

叫机器学习下围棋,一个是最好的下一步可能人类根本就不知道。我们不知道正确答案是什么的情况下,往往就是 RL 可以派上用场的时候,

Untitled

RL 在学习的时候,虽然不知道正确的答案是什么,但是机器会知道什么是好,什么是不好,机器会跟环境去做互动,得到Reward

RL也在找一个Function⇒Actor

Untitled

Reinforcement Learning 裡面呢,我们会有一个 Actor,还有一个 Environment。Actor 跟 Environment,会进行互动:

总之,Actor就是RL中要找的 Function,输入为 Observation,输出为Action,Function 的目标是要去 Maximizing从 Environment获得到的 Reward 的总和。

Example 1:Playing Video Game

Untitled

Untitled