大数据中会不会有太多数据?

作者: Laura McKinney
创建日期: 4 四月 2021
更新日期: 1 七月 2024
Anonim
大数据时代,事关你我的个人信息还安全吗?
视频: 大数据时代,事关你我的个人信息还安全吗?

内容

问:

大数据中会不会有太多数据?


A:

这个问题的答案是肯定的。大数据项目中绝对可能有太多数据。

发生这种情况的方式有很多种,而且专业人员需要以多种方式限制和整理数据以获得正确结果的原因多种多样。 (阅读有关大数据的十大神话。)

通常,专家们谈论将模型中的“信号”与“噪声”区分开来。换句话说,在大数据的海洋中,相关的洞察力数据变得难以确定目标。在某些情况下,您正在大海捞针中寻找针头。

例如,假设一家公司正在尝试使用大数据来生成关于客户群细分的特定见解,以及他们在特定时间范围内的购买。 (阅读大数据做什么?)

吸收大量数据资产可能会导致获取无关的随机数据,甚至可能产生偏向于使数据朝一个方向或另一个方向倾斜。

由于计算系统必须处理越来越大的数据集,因此它也极大地减慢了该过程。

在许多不同类型的项目中,对于数据工程师来说,将数据整理为受限的和特定的数据集非常重要–在上述情况下,这仅是针对正在研究的那部分客户的数据,只有当时的数据正在研究的框架,以及淘汰可能使事情混乱或减慢系统速度的其他标识符或背景信息的方法。 (ReadJob角色:数据工程师。)

有关更多内容,让我们看看它在机器学习领域是如何工作的。 (阅读机器学习101。)

机器学习专家谈论一种叫做“过度拟合”的东西,当机器学习程序在新的生产数据上松动时,过于复杂的模型会导致效果不佳。

当复杂的数据点集与初始训练集匹配得太好时,就会发生过度拟合,并且不允许程序轻松适应新数据。

现在从技术上讲,过度拟合不是由存在太多数据样本引起的,而是由过多数据点的加冕导致的。但是您可能会争辩说,过多的数据也可能是导致此类问题的一个因素。处理维数的诅咒涉及早期大数据项目中使用的某些相同技术,因为专业人员试图确定他们为IT系统提供的内容。

最重要的是,大数据可能对公司有极大的帮助,或者可能成为一项重大挑战。其中一个方面是公司是否拥有正确的数据。专家知道,将所有数据资产简单地转储到料斗中并以这种方式得出见解是不可取的-在新的云原生和复杂的数据系统中,需要进行控制和管理以及管理数据,以便获得更准确,更准确的数据。有效利用数据资产。