第一篇：强化学习基本原理通俗介绍

你好，我是zhenguo（郭震）

今天强化学习第一篇： 白话介绍强化学习的基本原理

强化学习是一种机器学习方法，旨在让智能体（agent）通过与环境的交互学习如何做出最优的行动选择以获得最大的累积奖励。

这是官方化的定义，初学者如何更好理解这个定义呢。

我们看看下面这幅图，智能体就是下面的红点。

环境是什么呢？就是智能体（红点）所处的这个迷宫，迷宫中黑格子表示障碍物，它是无法穿过的。白格子表示可以正常通行。这就是环境。

强化学习的目标就是让红点变得足够智能，智能到什么程度呢？让它能够顺利的找到从红格子（起始点）到绿格子（迷宫出口）的路径，并且学习到最后：让它能够从任意一个起始点找到一条合适的路径从出口出去。

如果学习一段时间，最终智能体几乎很快就能找到：从任意起点到出口的路径。

你看，这足够有意思吧！

它是如何做到的？答案是 强化学习。

进一步说是靠奖励做到的。

简单来说，你走对了，我奖励你；走到障碍物那里，我惩罚你；找到出口我大大的奖励你，这就是一个简单明了的奖励机制。

不断重复下去，不断尝试和试错，最终红点就变为真正的 智能体。

你看下面这幅图，红点是不是很智能了，它总能找到出口，并且基本不再犯错。

这条路径中，它只犯过这样的错误，圆圈所示，它尝试走到这里，但是发现两侧都是障碍物，无法越过，然后马上回退到上一步，并且准确走出迷宫。

以上就是强化学习的一个基本原理介绍。