目录
一.强化学习
1.1定义
1.2组成
二.应用
2.1初出茅庐
2.2无人驾驶
2.3游戏
一.强化学习
1.1定义
强化学习,英文Reinforcement Learning,也被简写成RL,来源于行为心理学。人们发现生物会趋利避害选择对自己更有利的策略来做出动作。强化分为正强化与负强化,其中正强化会让生物趋向于做这件事,负强化则会阻止其做这件事。强化学习的目标是学习怎样将输入的状态通过策略转换成合适的动作以保证数值化的收益信号最大化。强化学习具有试错与延迟奖励的特点,智能体完全通过与环境进行交互自己学习。1.2组成
强化学习的组成包括智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。智能体通过与环境进行交互,感知状态选择合适的动作。示意图如下所示:
强化学习的各个组成元素的定义如下:
智能体:强化学习中负责学习与决策的本体环境:强化学习中智能体以外的部分,值得一提的是,环境分为内部环境与外部环境。智能体并不能用一个物体代表,包含智能体的物体还包含内部环境,而外部进行交互的环境则为外部环境。状态:强化学习中用来表示环境情况的数据,作为强化学习智能体策略的输入。动作:强化学习中用来与环境进行交互的变量,是强化学习智能体策略的输出。奖励:智能体执行动作后环境反馈的正/负奖励信号值,负数表示惩罚。策略:智能体与环境进行交互时状态到动作的映射。目标:智能体在连续时间序列里寻找的最优策略,即最大化长期累积奖励。
二.应用
2.1初出茅庐
10月,Google的Alphago以5:0完胜欧洲冠军樊麾。3月,韩国顶级职业选手李世石以1:4败于alphago。12月29日晚到1月4日,注册名为Master的alphago在围棋对战网上标注为“韩国九段”接连踢馆击败了数名世界冠军。
随着人们对强化学习的不断研究,其又在电子游戏、投资管理、发电站控制、智能机器人等得到了应用。
2.2无人驾驶
在无人驾驶领域,强化学习主要用于路径优化、自动停车、变道等。
2.3游戏
目前,强化学习用于游戏领域还是很多,包括打砖块,平衡杆等游戏项目都取得了一定的效果。