Basics:What is RL?
应用场景:
- 机器当我们给它一个输入的时候,我们不知道最佳的输出应该是什么;
- 收集有标注的资料很困难的时候
叫机器学习下围棋,一个是最好的下一步可能人类根本就不知道。我们不知道正确答案是什么的情况下,往往就是 RL 可以派上用场的时候,
RL 在学习的时候,虽然不知道正确的答案是什么,但是机器会知道什么是好,什么是不好,机器会跟环境去做互动,得到Reward
RL也在找一个Function⇒Actor
Reinforcement Learning 裡面呢,我们会有一个 Actor,还有一个 Environment。Actor 跟 Environment,会进行互动:
- Environment会给 Actor 送来Observation作为输入
- Actor看到Observation以后,会输出Action影响Environment
- Environment受到到Action后被改变,产生新的Observation
- ……
- Environment会不断地给Actor一些Reward,告诉他采取的Action好不好。
总之,Actor就是RL中要找的 Function,输入为 Observation,输出为Action,Function 的目标是要去 Maximizing从 Environment获得到的 Reward 的总和。
Example 1:Playing Video Game
- Actor 站在人这一个角度,去操控摇杆,去控制那个母舰,去跟外星人对抗,
- Environment是游戏的主机,游戏的主机这边去操控那些外星人,