1、首先你要知道许多人不信只用1个强化学习算法,就能让计算机从零开始从像素中自动学会玩大部分ATARI游戏,并达到人类的表现水平。并展望了深度强化学习推动人工智能的发展,在复杂机器人环境中的应用以及解决实际问题。
2、首先那我们要定义一个策略网络来实现我们玩家的操作来得到实际行动的决定。这背后的原因,在我们谈论训练的时候就会变得更清晰明白。
3、其实呢理想状况中,你会想要将至少2帧画面输入到策略网络里,这样它就能探测到物体的运动。为了将这些稍做简化实际上我向网络中输入的是帧间差。
4、其实呢想让你感叹一下RL问题有多么困难。我们有100800个数字这时游戏中可能会反馈给我们0回报,并给我们另外100800个代表下一帧的数字。我们可以将这一过程重复几百遍,直到我们获得一个非0的回报!
5、其实呢在监督式学习中,我们将能访问一个标签。例如,我们可能被告知现在正确的做法是将挡板上移(标签0).在实际实现中,我们将为“挡板上移惯墀眚篪”的log概率输入1的梯度,然后运行反向传播来计算梯度向量。这个梯度将会告诉我们。如何为这数十万个参数做调整,让网络稍微更有可能预测出挡板上移这个动作。
6、最后如果你在GPU上用ConvNets进行几天的训练,你可以更好地甩开AI选手,而如果你也仔细优化了超参数的话,你将能够完全压制AI(也就是说,每一次游戏的每一局都胜过AI)。然而,我没有花太多时间运算或是调整,所以我们最后得到了一个下面视频中那样的AI——它表现得相当不错。