强化学习与深度强化学习：有什么区别？

视频: 深度强化学习(1/5)：基本概念 Deep Reinforcement Learning (1/5)

内容

什么是强化学习？
没有错误，没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南
什么是深度强化学习？

带走：

我们去找专家，让他们回答强化学习和深度强化学习之间的重要区别

机器学习算法可以使生活和工作变得更轻松，使我们从繁琐的任务中解放出来，同时比整个团队更快，更聪明地工作。但是，机器学习有不同类型。例如，有强化学习和深度强化学习。

“即使强化学习和深度强化学习都是自主学习的机器学习技术，也存在一些差异，”新泽西州韦恩市威廉·帕特森大学计算机科学助理教授Kiho Lim博士说。 “强化学习是通过尝试和错误方法动态学习以最大程度地提高结果，而深度强化学习是从现有知识中学习并将其应用于新数据集。”

但这到底是什么意思？我们去找专家–并请他们提供大量示例！

什么是强化学习？

正如Lim所说，强化学习是通过反复试验和实践来学习的实践。华盛顿州雷德蒙市Data Science Dojo的数据科学家培训生Hunaid Hameed表示：“在该学科中，模型通过逐步获得正确的预测奖励和因错误的预测而受到惩罚，从而在部署过程中学习。” （阅读强化学习可以很好地推动营销动态发展。）

“强化学习在AI玩游戏中很常见，并且随着时间的推移在玩游戏中得到改善。”

强化学习中的三个基本组成部分是主体，行动和奖励。加州山景市Fiddler实验室数据科学负责人Ankur Taly博士说：“强化学习遵循特定的方法，并确定获得最佳结果的最佳方法。” “这与我们玩电子游戏的结构非常相似，在该结构中，角色（代理人）进行了一系列试验（动作）以获得最高分（奖励）。”

但是，这是一个自主的自我教学系统。 Taly在视频游戏示例中说，积极的回报可能来自得分或积分的增加，而消极的回报可能是遇到障碍或采取不利行动的结果。

总部位于加利福尼亚州旧金山的Skymind首席执行官克里斯·尼科尔森（Chris Nicholson）建立在算法如何通过反复试验来学习的示例上。”想象一下第一次玩超级马里奥兄弟，并试图找出获胜的方法：探索太空，你躲起来，跳，打硬币，降落在乌龟上，然后你会看到发生了什么。”

没有错误，没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时，您就无法提高编程技能。

通过学习好行为和坏行为，游戏可以教您如何表现。 “强化学习可以在任何情况下做到这一点：视频游戏，棋盘游戏，真实世界的用例模拟。”实际上，Nicholson说，他的组织使用强化学习和模拟来帮助公司在复杂的情况下找出最佳决策路径。

在强化学习中，代理人会做出一些较小的决定来实现更大的目标。另一个例子是教机器人走路。 “强化学习方法不是用硬编码的方法来举起一只脚，弯曲膝盖，放下膝盖等等，而是使机器人进行不同动作顺序的实验，并找出哪种组合最有效地完成了它。前进，”医学博士Immuta的数据科学家和分析工具专家Stephen Bailey说。

除了视频游戏和机器人技术外，还有其他一些示例可以帮助解释强化学习的工作原理。华盛顿特区巴别街（Babel Street）的首席数据科学家布兰登·海妮（Brandon Haynie）将其与人类学骑自行车的经历进行了比较。 “如果您站着不动而没有踩踏板就抬起脚，那么跌倒或罚球就迫在眉睫。”

但是，如果您开始踩踏板，那么您将继续骑自行车-奖励-并进入下一个状态。

Haynie说：“强化学习的应用涉及多个领域，包括财务决策，化学，制造，当然还有机器人技术。”

什么是深度强化学习？

但是，对于强化学习方法而言，决策可能变得过于复杂。 Haynie表示，从所有状态学习并确定奖励路径的算法可能会让人不知所措。 “这是深度强化学习可以提供帮助的地方：“深度”部分是指使用神经网络来估计状态，而不必映射每个解决方案，从而在决策过程中创建了更易于管理的解决方案空间。”

这不是一个新概念。海妮说它从1970年代就存在了。他解释说：“但是随着廉价，强大的计算技术的出现，神经网络的其他优势现在可以帮助解决问题，从而降低解决方案的复杂性。” （阅读人工智能和神经网络有什么区别？）

那么，这是如何工作的呢？ Teradata美洲AI团队负责人Peter MacKenzie认为，太多的信息无法存储在表格中，表格形式的方法将要求代理访问每个状态和动作组合。

但是，深度强化学习用函数逼近代替了估计状态值的表格方法。 “函数逼近不仅消除了将所有状态和值对存储在表中的需要，而且使代理能够通过使用相似状态的值来概括其从未见过的状态值或具有部分信息的状态信息，”麦肯齐说。

“深度强化学习的许多令人振奋的进步之所以出现，是因为神经网络能够在巨大的状态空间中进行泛化。” MacKenzie指出，深度强化学习已被用于击败了一些人类最佳竞争对手的程序中在象棋和围棋之类的游戏中，还负责机器人技术的许多进步。（阅读7位AI，机器学习和机器人领域的女性领导者。）

Bailey同意并补充说：“今年早些时候，一个名为AlphaStar的AI代理击败了世界上最好的StarCraft II玩家-这特别有趣，因为与Chess和Go这样的游戏不同，StarCraft中的玩家不知道对手在做什么。”相反，他说，他们必须制定初始策略，然后在发现对手的计划时进行调整。

但是那怎么可能呢？ Hameed说，如果模型的神经网络超过五层，则它能够满足高维数据。他解释说：“由于这个原因，该模型可以学会自己识别模式，而无需人工指导，并选择应该输入到模型中的变量进行学习。”

在开放式场景中，您确实可以看到深度强化学习的美丽。 Taly举例说明了在餐厅预订餐桌或下订单的情况–代理商必须响应另一端的任何输入的情况。

他说：“深度强化学习可用于直接从另一端或音频信号中训练对话代理。” “当使用音频信号时，业务代表还可以学习掌握音频中的细微提示，例如暂停，语调等等，这是深度强化学习的力量。”

深度强化学习的新应用不断涌现。在确定与客户互动的下一个最佳行动时，MacKenzie说：“状态和行动可以包括跨所有不同渠道的产品，报价和消息传递的所有组合，并且每个渠道都是个性化的-文字，图像，颜色，字体。”

另一个例子是供应链优化，例如，在美国范围内交付易腐产品。“可能的状态包括所有不同类型运输的当前位置，所有工厂，仓库和零售店的库存以及所有产品的需求预测商店”，麦肯齐说。

“使用深度学习来表示状态和行动空间，使代理能够做出更好的后勤决策，从而以更低的成本实现更及时的发货。”

内容

什么是强化学习？

没有错误，没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

什么是深度强化学习？

网络节点管理器（NNM）

路线中毒

服务器消息块协议（SMB协议）

插座

交易服务器

实时欺诈检测

实时数据流

流分析

数据分析平台

大数据分析平台

大数据分析可以弥补商业智能差距吗？

不惜一切代价避免的4种不良商业智能习惯

业务分析的四个主要优点

商业移动无线电服务（CMRS）

行政支持系统（ESS）

代码生成

存储管理计划规范（SMI-S）

幻数

魔烟