职位职责:数据工程师

作者: Laura McKinney
创建日期: 3 四月 2021
更新日期: 14 可能 2024
Anonim
Data Engineer(数据工程师)和Data Scientist(数据科学家)都是高端职位,有何异同?如何选择?我们为什么要成为Google认证的数据工程师(Data Engineer )
视频: Data Engineer(数据工程师)和Data Scientist(数据科学家)都是高端职位,有何异同?如何选择?我们为什么要成为Google认证的数据工程师(Data Engineer )

内容


资料来源:Paulus Rusyanto / Dreamstime.com

带走:

数据工程师经常与数据科学家混为一谈,但是这两个角色之间存在显着差异。

如今,数据工程师的需求量很大,但是太多的主管和其他人对这些专业人员的工作提出了很大的疑问。

关于软件工程师和数据工程师之间的区别,以及关于数据科学家和数据工程师如何一起工作的问题,存在着巨大的困惑。将各种新的大数据项目(包括机器学习和业务洞察力工具)综合考虑在内,您对数据工程师的角色以及他们的日常工作可能会产生一些困惑。

读: 您可以通过在线学习掌握的6个关键数据科学概念

具体的数据提炼角色

一般来说,数据工程师负责处理数据系统并优化数据以适合这些系统,其中数据科学家在直接清理和组织大数据集方面的作用略有不同。

如果有一种简单的方法可以区分数据科学家通常做什么和数据工程师通常做什么,那么您可以说数据科学家会查看数据 通过全面的视角 而数据工程师会查看数据 通过数据库或大数据处理系统。

Kinetica的首席技术官兼创始人Nima Negahban表示:“数据工程师……专门致力于将数据科学家的工作转化为业务的强化的,数据驱动的软件解决方案。”他描述了为什么数据工程师在未来几年会受到大量需求。 “这涉及创建深入的AI开发,测试,开发和审核流程,使公司能够在整个企业范围内大规模整合AI和数据管道。创建那些由数据驱动的硬软件解决方案的工作是现代企业中数据工程师关注的主要部分。”

这种划定-数据工程师直接处理大数据的想法 系统,是了解数据工程师向雇主提供的主要方法。

数据工程师和不断变化的大数据格局

作为大数据系统和数据库设置的维护者,数据工程师通常会熟悉诸如Apache Hadoop之类的特定技术。

没有错误,没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时,您就无法提高编程技能。


但是他们也往往会对这些大数据处理系统如何发展以及哪些竞争者在当今的企业界越来越受欢迎而了解很多。

就在几年前,Apache Hadoop是大数据处理的黄金标准。数据工程师将Hadoop与YARN和MapReduce之类的工具绑定在一起,并生产出群集的,结构化的数据处理系统。

现在,Hadoop似乎正在输给其他类型的系统。

几个月前,在新堆栈上的一篇文章名为“ Kubernetes会沉没Hadoop船吗?”时,作家Yaron Haviv指出竞争对手Cloudera和Hortonworks现在已经合并,而Spark等新的Apache工具将Hadoop推向了过时的状态。 。

此外,云供应商拥有自己的大数据处理系统,这也可能会吸引数据工程师的工作流程。

第三大趋势是朝着容器虚拟化发展。在容器设置中,各种数据容器共享一个核心操作系统并呈现出薄薄的攻击面,同时最大限度地提高了整个平台的效率。像Kubernetes这样的容器技术已经接管了许多过去在Hadoop以及以前在简单的关系数据库服务器上运行的项目。

Haviv写道:“ Kubernetes的最大优势之一就是其可移植性,使用户能够构建跨越多个云或分布在不同位置的集群。可移植性还有助于在云中开发或测试微服务,并自动在一个或多个边缘位置进行部署。”

数据工程师:完善数据

数据工程师还具有与获取原始数据并使之结构化有关的关键作用。数据科学家也可以做到这一点。但是,再次,数据工程师通常会着眼于完善原始数据并将其过滤到特定的数据库系统中。您可以将它们视为数据优化过程中的“系统操作员”或“系统所有者”,他们通常会考虑在特定环境中进行数据清理。 (有关数据科学家的更多信息,请参见职位:数据科学家。)

在DataScienceGraduatePrograms.com上,内容丰富的介绍性资源突出了数据工程本质的这一部分:

数据工程师专注于大数据的应用和收集。他们的角色不包括大量分析或实验设计。相反,它们不在橡胶与道路接触的地方……为信息的流动和访问创建接口和机制。

储存资料

公司在存储数据方面也有多种选择。数据工程师可能负责评估这些选择类型。例如,利用来自Amazon或其他供应商的供应商存储服务可能会更有帮助。亚马逊的S3对象存储模型提供了处理存储信息的新方法,这些信息是在几年前才在传统的独立磁盘冗余阵列(RAID)系统上进行创新的。


数据工程师作为媒人

与其他类型的角色一样,数据工程师也应在组织结构中扮演角色,并通过确保目标与现有结构相匹配来尝试推动业务发展。

其中一些要求寻求高管或其他利益相关者的支持。其中一些要求确保将中间件插入数据存储库,或者确保大数据系统可以不受瓶颈的束缚。所有这些通常都在数据工程师的权限之内,数据工程师将通过特定的具体IT系统和数据库模型以简化核心业务目标的方式来移动经过提炼和整理的数据。

所有这些说明了数据工程师是如何成为“数据仓库的守护者”的-当问题与大数据的本质以及利用或存储大数据的系统相交时,它们通常是组织结构图响应的重点。考虑一下数据工程师如何适应当今和未来的商业世界。