数据目录与机器学习市场的成熟

内容

信息经济学势在必行
没有错误，没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南
数据目录可以为企业做什么
添加机器学习
如何选择

资料来源：Nmedia / Dreamstime.com

带走：

MLDC市场正在增长，寻求通过机器学习有效利用大数据的企业应了解该领域的顶级名称及其个人排名。

这是大数据时代。我们被信息所淹没，企业发现管理和从中获取价值是一项挑战。

当今的大数据流不仅需要数量，种类和速度，还需要复杂性。 SAS在《大数据历史记录和当前考虑因素》中指出，这是流“来自多个来源”的一个因素，这使得跨系统链接，匹配，清理和转换数据变得困难。（想要了解有关大数据的更多信息？请查看（大）数据大未来。）

寻找有价值的见识不是简单地收集尽可能多的数据，而是寻找正确的数据。用手工过程不可能完成所有这些工作。这就是为什么越来越多的企业“转向数据目录以使对数据的访问民主化，使部族数据知识能够整理信息，应用数据策略以及为业务价值快速激活所有数据的原因”。

这是数据目录（有时也称为信息目录）在图片中输入的位置。如此处所定义，它们使“用户能够探索所需的数据源并了解所探索的数据源，同时协助组织从当前的投资中获得更多价值”。它的一种方法是通过在可以利用或贡献数据的不同类型的用户之间实现对数据的更大访问。

信息经济学势在必行

Gartner注意到2017年底对数据目录的需求急剧增加，称其为“新黑手党”。它们已被公认为一种快速经济的解决方案，“可以对组织中越来越分散和混乱的数据资产进行清单和分类，并绘制其信息供应链。”由于“信息经济学”的兴起，出现了这种必要性，“信息经济学”要求对信息的跟踪与对其他业务资产的管理一样，采用相同的细致性。（有关供应链的更多信息，请参阅机器学习如何提高供应链效率。）

Gartners在《 Forrester Wave™：机器学习数据目录》（2018年第二季度）中大开眼界。该报告中超过一半的调查参与者表示，他们正在计划建立其数据目录实施。他们的动机可能是每个组织中至少有七个数据湖。正如Gartner对数据目录所做的解释那样，数据目录对于提取通常以未分类形式留在数据湖中的“数据的缺点，含义和价值”特别有用。

Forrester报告称，2017年，超过三分之一的数据和分析决策者正在处理1000TB或更多的数据，而前一年的报告数量仅为10％至14％。如此规模的数据管理是一个日益严峻的挑战，具体地说，是两个挑战：

“ 1）合并现有业务流程以获取数据以对其进行分析和实施见解，并2）随着数据的增长来采购，收集，管理和管理数据。”

没有错误，没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时，您就无法提高编程技能。

数据目录可以为企业做什么

Gartner确定了数据目录可改善组织信息流和生产力的特定方式：

整理和传达组织可用的最新信息资产清单。
创建用于定义组织数据的语义解释和含义的业务术语通用词汇表，从而提供调解和解决定义不一致的手段。
启用动态，敏捷的协作环境，以使业务和IT同事可以评论，记录和共享数据。
通过沿袭和影响分析提供数据使用透明性。
监视，审核和跟踪数据以支持信息治理流程。
捕获元数据以增强对数据使用和重用，查询优化和数据认证的内部分析。
通过捕获，交流和分析存在的数据，数据的来源，使用的弊端，为什么需要它，在过程和系统之间如何流动，对谁负责，这意味着在其业务使用中对信息进行概念化以及它具有什么价值。

Gartner报告称，正确识别数据并让组织中的关键人员可以访问这些数据非常重要，这不仅是为了找到“将数据资产货币化以实现数字业务成果的方式”，而且还必须遵守法规，无论它们是行业例如《健康保险可移植性和责任制法案》（HIPAA），或者更一般的性质是《通用数据保护条例》（GDPR）。

添加机器学习

但是，没有没有缺点。对于数据目录，问题在于缓慢繁琐的过程，需要手动将它们与需要放置的所有元数据一起构建。这是机器学习组件出现的地方。

Forrester评估的数据目录被称为MLDC，因为它们利用了机器学习的力量，这是AI的组成部分之一。正如Podium Data博客所解释的那样，这使得“建立一个持久的元数据存储库，然后应用ML / AI来发掘并公开有关基础数据资产的潜在有用见解”成为可能。

如何选择

为了帮助组织评估应该选择哪个企业，Forrester对前12个MLDC应用了29个评估点。它确定了该市场的领导者：IBM，Relito，Unifi Software，Alation和Collibra。它发现的强者包括Informatica，Oracle，Waterline Data，Infogix，Cambridge Semantics和Cloudera。 Hortonworks在“竞争者”中独树一帜。

但是，不应仅靠整体排名就可以了。该报告确实细分了每个报告的优点和缺点。因此，如果某个特殊功能（如研发）对于组织而言至关重要，则可以将Hortonworks视为与IBM和Colilbra在该方面相当的功能，因为这三项在该质量方面得分最高，为5分，这是比Alation和Coloudera好两点，比Cambridge Semantics好四点。

因此，Forrester报告建议那些使用其报告作为指导的人不要认为排名靠前的公司是每个人的最佳选择。他们应密切注意评估的细目分类，以找到符合其特定要求的内容。