马尔可夫决策过程(MDP)

作者: Laura McKinney
创建日期: 5 四月 2021
更新日期: 22 六月 2024
Anonim
Intro to Reinforcement Learning 强化学习纲要 第二课 马尔科夫决策过程 上
视频: Intro to Reinforcement Learning 强化学习纲要 第二课 马尔科夫决策过程 上

内容

定义-马尔可夫决策过程(MDP)是什么意思?

专业人士将马尔可夫决策过程(MDP)称为“离散时间随机控制过程”。它基于19世纪末至20世纪初俄罗斯学者安德烈·马尔科夫(Andrey Markov)提出的数学方法。


Microsoft Azure和Microsoft Cloud简介在本指南中,您将了解什么是云计算,以及Microsoft Azure如何帮助您从云迁移和运行业务。

技术百科解释了马尔可夫决策过程(MDP)

解释马尔可夫决策过程和相关的马尔可夫链的一种方法是,这些是现代博弈论的要素,基于几百年前的俄国科学家进行的较简单的数学研究。马尔可夫决策过程的描述是,它研究一种系统处于某些给定状态集的情况,并根据决策者的决策前进到另一个状态。

马尔可夫链作为模型显示了一系列事件,其中给定事件的概率取决于先前获得的状态。专业人士可能会在描述Markov决策过程时谈论“可数状态空间”-一些人将Markov决策模型的思想与基于概率的“随机游走”模型或其他随机模型(通常在Wall上引用的随机游走模型)联系在一起。 Street,模拟了市场概率con中股票的涨跌趋势。

通常,马尔可夫决策过程通常应用于当今专业人员正在研究的某些最复杂的技术,例如机器人技术,自动化和研究模型。