强化学习可以给营销带来动态变化

内容

什么是强化学习？
没有错误，没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南
营销机器
快来了
思维更大
领养之路

资料来源：Juliatimchenko / Dreamstime.com

带走：

强化学习是人工智能和机器学习的子集，可以预测结果并帮助用户做出更好的决策。

当试图在竞争日益激烈的营销条件中获得优势时，营销人员一直在寻求可扩展的智能解决方案。难怪品牌及其营销组织正在大量采用人工智能（AI）和机器学习（ML）。（要了解有关ML基础的更多信息，请查看机器学习101。）

对于初学者来说，当计算机自动执行人类原本可以完成的定义任务时，通常可以将AI视为一项技术。机器学习作为AI的功能领域，是要为计算机设定最终目标，但需要自己计算最佳路线。

如今，我们看到这些技术（尤其是机器学习）已部署到营销的许多领域，包括广告欺诈检测，预测消费者行为，推荐系统，创意个性化等等。

尽管这一切都很好，但是对于营销人员来说，有一项新的分支技术将真正满足机器学习正在创造的需求。称为“强化学习”（RL）。

什么是强化学习？

从ML到RL的逐步转变不只是一个字母。交付给机器学习的大多数任务都涉及到一个步骤，例如“识别此图像”，“了解书本内容”或“捕捉欺诈”。对于营销人员来说，诸如“吸引，保留和吸引用户”之类的业务目标是本质上是一个多步骤且长期的步骤，而机器学习不容易实现。

这就是强化学习的用武之地。RL算法的全部目的是针对不断发展和不断变化的旅程进行优化-发生动态问题的旅程。通过使用数学上的“奖励函数”来计算每个排列的结果，RL可以展望未来并做出正确的选择。

如今，在游戏和自动驾驶汽车中都可以看到这种尖端技术的最佳体现。去年，当Google的AlphaGo系统击败棋盘游戏Go的全球最佳玩家时，他们的秘诀就是强化学习。尽管游戏设定了规则，但玩家获得胜利的途径的选择会根据棋盘的状态动态变化。通过强化学习，系统可以解决所有可能的变化，这些变化可能会随着每个下一步移动而改变。

同样，无人驾驶汽车在行驶过程中，道路规则和目的地位置保持不变，但是沿途的变量（从行人到路障再到骑自行车的人）都是动态变化的。这就是由特斯拉的埃隆·马斯克（Elon Musk）创立的组织OpenAI对其车辆采用先进的RL算法的原因。

没有错误，没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时，您就无法提高编程技能。

营销机器

这对营销人员意味着什么？

商业条件一直在变化，这构成了许多营销人员的核心挑战。随着时间的流逝，成功的竞选策略可能会变得不利，而旧的策略则会获得新的吸引力。 RL是模仿真实人类智慧的一步，我们可以从多种结果的成功和/或失败中学习，并形成未来的成功策略。让我举一些例子：

1.增强用户参与度

让我们着重于餐厅连锁店的客户参与度，并制定目标，在明年将其增加十倍。如今，一项营销活动可能涉及甚至可以根据食物偏好来打折的生日祝福。这是营销人员定义起点和终点的线性思维。

在繁忙的世界中，客户的生活在实时变化中不断变化-有时他们参与度更高，有时则更少。在强化学习中，系统将不断地重新调整市场营销中的哪些策略，在任何给定时刻，都是使接受者朝着10倍参与度最终目标迈进的最佳机会。

2.动态预算分配

现在，假设有一个广告场景，其中您有100万美元的预算，并且需要每天花一些钱直到月底，并通过四个不同的渠道进行分配：电视，忠诚度提升和Google。如何确保以最佳方式支出预算？答案取决于日期，目标用户，库存价格和许多其他因素。

在强化学习中，算法将使用历史广告结果数据来编写对某些支出决策进行评分的奖励函数。但这也考虑到了实时因素，例如定价和目标受众获得正面认可的可能性。通过迭代学习，整个月的广告支出分配将动态变化。尽管设定了最终目标，但RL将在所有情况下均以最佳方式分配预算。（有关市场营销中人工智能的更多信息，请参见人工智能将如何改变销售行业。）

快来了

强化学习承认复杂性，并认识到人是异质的，并解释了这些事实，随着时间的推移，随着游戏板上的各个部分的变化，每个后续动作都会得到改善。

强化学习在很大程度上仍是研究项目和领先采用者的保留。数学概念和技术已经存在了40多年，但由于以下三个趋势，直到最近才开始进行数学部署：

通过高性能的图形处理单元（GPU）扩展计算能力。
云计算使高端处理器功能可用，而其成本仅为购买GPU本身的一小部分，从而允许第三方租用GPU以相对便宜的价格在数小时，数天或数周内训练其RL模型。
数值算法或智能启发式算法的改进。 RL算法中的几个关键数值步骤现在可以更快的速度收敛。没有这些神奇的数字技巧，即使使用当今功能最强大的计算机，它们也仍然不可行。