200字范文 > 强化学习概述什么是强化学习

强化学习概述什么是强化学习

时间：2024-05-18 00:30:08

相关推荐

强化学习概述什么是强化学习

一.强化学习

1.1定义

1.2组成

二.应用

2.1初出茅庐

2.2无人驾驶

2.3游戏

一.强化学习

1.1定义

强化学习，英文Reinforcement Learning，也被简写成RL，来源于行为心理学。人们发现生物会趋利避害选择对自己更有利的策略来做出动作。强化分为正强化与负强化，其中正强化会让生物趋向于做这件事，负强化则会阻止其做这件事。强化学习的目标是学习怎样将输入的状态通过策略转换成合适的动作以保证数值化的收益信号最大化。强化学习具有试错与延迟奖励的特点，智能体完全通过与环境进行交互自己学习。

1.2组成

强化学习的组成包括智能体（Agent）、环境（Environment）、状态（State）、动作（Action）、奖励（Reward）组成。智能体通过与环境进行交互，感知状态选择合适的动作。

示意图如下所示：

强化学习的各个组成元素的定义如下：

智能体：强化学习中负责学习与决策的本体环境：强化学习中智能体以外的部分，值得一提的是，环境分为内部环境与外部环境。智能体并不能用一个物体代表，包含智能体的物体还包含内部环境，而外部进行交互的环境则为外部环境。状态：强化学习中用来表示环境情况的数据，作为强化学习智能体策略的输入。动作：强化学习中用来与环境进行交互的变量，是强化学习智能体策略的输出。奖励：智能体执行动作后环境反馈的正/负奖励信号值，负数表示惩罚。策略：智能体与环境进行交互时状态到动作的映射。目标：智能体在连续时间序列里寻找的最优策略，即最大化长期累积奖励。