您的数据结构如何?检查结构化,非结构化和半结构化数据

作者: Roger Morrison
创建日期: 25 九月 2021
更新日期: 21 六月 2024
Anonim
结构化SQL数据库 与 非结构化NOSQL数据库大比拼
视频: 结构化SQL数据库 与 非结构化NOSQL数据库大比拼

内容



资料来源:monsitj / iStockphoto

带走:

了解结构化,非结构化和半结构化数据。

从历史上看,数据分析员只能从一种数据类型中解密和提取信息:结构化数据。这种数据类型清晰,因此很容易搜索,但只占可用数据总量的一小部分。

非结构化数据包括视频,音频,s以及来自社交媒体和移动设备的数据。毫无疑问,这是最大的可用原始信息储备,但是没有人能够可靠地利用这一资源。

但是,随着存储可用性的提高和卓越的处理能力催生了非结构化数据分析,这种情况已经发生了变化,这是一种新的,因此不成熟的技术形式。更好的商业智能正充分利用这一机会,并且正在进行大量投资来聚合结构化和非结构化数据分析,以访问这些看似无穷无尽的信息金矿。

让我们看一下这两种数据格式,以了解它们之间的差异以及所有数据分析师的未来。

什么是结构化数据?

结构化数据是人为或机器生成的,高度组织的信息,可以轻松地存储在称为关系数据库(RDB)的行数据库结构中。它以一种可以轻松捕获,存储和组织为RDB结构的格式存在,以便以后进行分析。 (要了解有关数据库的更多信息,请查看我们的数据库简介。)

示例包括邮政编码,电话号码和用户人口统计信息(例如年龄或性别)。可以使用Excel电子表格中的结构化查询语言(SQL)或VLOOKUP函数查询在这些数据库中找到的数据。还可以使用其索引或数字和字母数据的算法来快速搜索在各个字段中找到的数据。但是,严格按照字段类型和名称定义所有数据,因此在一定程度上限制了存储,查询和分析数据的能力。

使用结构化数据的典型应用程序包括医院管理软件,客户关系管理(CRM)应用程序和航空公司预订系统。由于其整洁的组织和易于访问的结构化数据在处理大量信息时非常有用和高效。但是,当钻探隐藏在人类每天产生的无数数据中的黑油时,寻找结构化数据无非是在刮擦表面。

什么是非结构化数据?

组织中发现的绝大多数数据都是非结构化的,有人估计它占当前可用总数据的80%。根据定义,非结构化数据就是没有可识别内部结构的所有内容。但是,某些类型的数据属于此类 确实有 某种形式的模糊内部结构,但不符合数据库或电子表格。


没有错误,没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南


当没有人关心软件质量时,您就无法提高编程技能。

大多数业务数据都是非结构化的,包括客户服务交互,文件,Web日志,视频和其他多媒体内容,销售自动化,S和社交媒体帖子。无需说明如果可以进行挖掘,组织和分析的话,这些数据将具有多么宝贵的价值。

大多数非结构化数据是由人类生成的,因此被其他人类理解。这意味着更整洁的计算机智能无法理解这类信息,因为它与机器语言和结构化数据库的线性度相距太远。

介于两者之间:半结构化数据

半结构化数据是第三种数据类型,代表了整个饼图的较小部分(5-10%)。从字面上看介于这两个世界之间,半结构化数据包含内部语义标记和标识单独元素的标记,但缺少适合关系数据库所需的结构。

例如,s看起来像结构化数据,因为它们可以按日期,文件大小或时间进行分类。但是,它们不是,因为在其中可以找到最有价值的信息,而不是相对简单的标签。不能按内容和主题真正安排,因为人类不会以如此严格的方式说话,让机器清楚地理解他们。半结构化数据的其他示例包括NoSQL数据库,开放标准JSON和标记语言XML。

通常使用元数据分析来查询和分类半结构化数据以进行分析。例如,X射线扫描由形成图像的大量像素组成–这些像素本质上是无法访问的非结构化数据。但是,扫描文件仍将包含元数据部分,该部分提供有关该文件的信息,例如注释和用户ID。

非结构化数据可以转换为结构化数据吗?

每个数据分析师必须面对的根本挑战是以一种整洁,有序的方式组织手头的信息,以便可以访问和理解它。数据挖掘工具通常不具备解析信息的能力,根据定义,该信息太类似于人类语言,这意味着只有另一个人可以收集和分类信息。

但是,庞大的非结构化数据量使得任何试图对其进行存储或组织的工作都非常费力且昂贵。例如,来自基于Web的搜索引擎的信息池是如此之大,以至于大多数元素都需要在工作和资源方面进行大量投资才能提取最基本的元素。即使是最有效的数据挖掘技术,也仍然会丢失在Web上发现的大量信息,甚至更糟的是在深层Web内。


但是技术确实存在。它们正在以惊人的速度发展。例如,元数据可用于将结构化和非结构化数据连接在一起。用户和算法都可以过滤和索引收集的信息,从而仅分析相关数据。其他解决方案包括“数据争用”,这是非技术用户逐步逐步组织复杂数据的过程。 (有关处理数据的普通用户的更多信息,请参阅大数据如何在自助服务分析中提供帮助。)

在某个时候,我们将能够有效地将这些大量无组织的信息转换为更有条理和重组的格式。也许不是今天,也许不是明天,但很快我们将能够突击人类有史以来最大的保险库:大数据。