当今的大数据挑战源于多样性,而非数量或速度

作者: Judy Howell
创建日期: 28 七月 2021
更新日期: 1 七月 2024
Anonim
05-4 让新技术遇见SDGs
视频: 05-4 让新技术遇见SDGs

内容


带走:

太多的IT部门在处理数据量和速度问题时投入了所有精力,却忘记了解决各种数据的根本问题。

Gartner研究副总裁Doug Laney表示,管理和利用大数据的挑战来自三个方面。 Laney十多年前首次指出,大数据对企业造成了这样的问题,因为它引入了难以管理的数量,速度和多样性。问题是,太多的IT部门将所有精力投入到数据量和速度问题上,却忘了解决各种数据的根本问题。

早在2001年,Laney就写道:“领先企业将越来越多地使用集中式数据仓库来定义通用的业务词汇表,从而改善内部和外部协作。”该词汇表的问题以及使公司无法创建词汇表的可变性,仍然是当今大数据难题中最少被提及的方面。 (请查看其他专家怎么说。请查看继续关注的大数据专家。)

大数据的三大诉求

许多企业发现了利用增加的数据量和速度的方法。例如,可以分析大量数据。当然,这些数据通常在相同的参数中反复显示。这推动了诸如列数据库之类的技术创新,如今这些列数据库已被面临同样规模的相似数据项存储的其他公司广泛使用。

就驯服速度而言,像Spl​​unk这样的供应商可以通过每秒捕获数千个事件的日志文件来帮助企业分析快速创建的数据。对大量事件的分析针对安全性和性能监视用例。与数据量挑战一样,速度挑战在很大程度上已通过复杂的索引技术和分布式数据分析得到了解决,这使处理能力能够随着数据速度的提高而扩展。

但是,在多样性方面,仍然有太多企业在大数据分析方法上仍然面临一个大问题。该问题由三个因素驱动:首先,由于增长,收购和技术创新将新系统添加到环境中,企业被锁定在高度异构的环境中,并且这种异构性只会随着时间而增加。企业需要跟踪大量的系统类型并管理数以万计的数据类型,以及使用不同的术语和格式表示的相同数据。

其次,这些系统和数据类型在许多情况下报告相关信息和可以安全滤除与要解决的问题无关的信息。有必要可靠地识别有影响力的信息。

品种挑战的第三个方面是环境的不断变化或变化。系统已升级,引入了新系统,引入了新的数据类型并引入了新的术语。这进一步拉大了我们应对数据多样性挑战的能力。这为品种挑战增加了一层。 (有关更多信息,请查看大数据:如何捕获,处理和使用大数据来制定业务决策。)


解决数据多样性问题

为了解决数据多样性问题,企业必须从IT领域入手,因为它经常代表多样性问题的最严重违者和最严重受害者。第一步是从所有IT元素或资产的全面定义或分类开始。这提供了一个基准或基础来引用IT中或与之有关的任何事物,并使企业能够根据已知的分类法或术语管理不断增加的异构性。

没有错误,没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时,您就无法提高编程技能。

下一步是确定跨不同记录系统表示同一对象的多种方式。这使IT专业人员可以查看他们的异构环境,并高度过滤和压缩数据,使其成为相关且可管理的块。

最后,IT经理必须采用对环境进行持续检查的过程来进行更改,例如引入的新型元素或引用同一元素的新术语。

通过这些步骤,IT组织可以管理品种问题并获得IT团队历来无法掌握的深刻见解。此外,管理品种问题可以极大地提高他们在解决更传统的大数据量和速度问题的工具和技术上的投资回报率。