学习数据科学的12个关键技巧

作者: Laura McKinney
创建日期: 3 四月 2021
更新日期: 14 可能 2024
Anonim
Challenges of a Data Analyst 什么人适合做数据分析师?
视频: Challenges of a Data Analyst 什么人适合做数据分析师?

内容


资料来源:Artinspiring / Dreamstime.com

带走:

数据科学家显然需要强大的数学和编码技能,但是沟通和其他软技能对于成功也至关重要。

数据科学家在Glassdoor上被评为2019年美国最佳工作。底薪中位数为$ 108,000,工作满意度为5分中的4.3,再加上预计的空缺数目,这不足为奇。问题是:要想获得这份工作的资格,必须做些什么?

为了找出答案,我们寻找了给那些寻求进入这一职业道路的人的建议。很大程度上归因于编码和数学方面的硬技能。但是,仅凭如此强大的计算能力并不能解决问题。成功的数据科学家还需要能够以自己的方式与商人交谈,这需要与软技能和领导能力相关的功能。 (要了解有关数据科学家职责的更多信息,请参阅职位角色:数据科学家。)

建立教育基础:三个主要技巧

纽约市数据科学学院的数据科学家Drace Zhan强调需要一个包括编码和数学能力的基本知识的教育基础:

  1. R / Python + SQL。如果您没有编码技能,则需要大量的联网功能和其他领域来弥补这一不足。我见过的数据科学家数学能力很弱,没有丰富的领域经验,但是他们一直都具有强大的编码能力。 Python是理想的选择,但R是很好的后备工具。最好在您的武器库中同时使用。 SQL对数据分析师也非常重要。

  2. 较强的数学能力。对几种常用方法有很好的理解:广义线性模型,决策树,K均值和统计检验要比对各种模型或专业知识(如RNN)有更全面的了解。

这些是可以建立的核心技能,尽管有些专家对此有所补充。例如,一个KDnuggets列表包括Zhan提到的编码组件,并在技术方面添加了一些其他有用的知识,包括Hadoop平台Apache Spark,数据可视化,非结构化数据,机器学习和AI。

但是,如果我们从对Kaggle调查确定为现实生活中最常用的工具的调查中获得线索,我们会得到不同的结果。从下面的前15个选项的图表中可以看出,Python,R和SQL轻松进入前三,而第四个是Jupyter笔记本,其次是TensorFlow,Amazon Web Services,Unix shell,Tableau,C / C ++,NoSQL ,MATLAB / Octave和Java,均领先于Hadoop和Spark。微软的Excel Data Mining是使人惊讶的另一种方法。


图片由Kaggle提供

KDnuggets列表还包含有关正规教育的提示。大多数数据科学家拥有高级学位:46%的拥有博士学位,88%的拥有至少硕士学位。他们拥有的大学学位通常在相关领域之间划分。大约三分之一是数学和统计学,这是该职业领域最受欢迎的。最受欢迎的是计算机科学学位,占19%;工程学,占16%。当然,数据科学特有的技术工具通常不在学位课程中研究,而是在专门的训练营或通过在线课程进行研究。

不仅仅是课程:还有两个提示

威尔·康奈尔大学医学系肺部研究助理,纽约市数据科学学院的学生Hank Yun建议有抱负的数据科学家围绕他们将从事的工作进行规划并找到一名导师。他说:

没有错误,没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时,您就无法提高编程技能。

告诉自己您知道数据科学是因为您参加了课程并获得了证书,所以不要犯我的错误。这是一个很好的开始,但是当您开始学习时,请牢记一个项目。然后在该领域找到一位导师并立即开始一个激情项目!当您新鲜时,您不知道自己不知道的地方,因此当有人在那里指导您了解对您重要和不重要的内容时,它会有所帮助。您不想花很多时间学习而无所作为!

知道从工具箱中取出哪种工具:领先于曲线的技巧

鉴于数据科学工具排名的差异,有些人可能会感到困惑。安全软件公司McAfee的首席数据科学家Celeste Fralick在一份CIO文章中谈到了该问题,该文章着眼于数据科学家的基本技能,他宣称:“数据科学家不仅需要保持研究前沿,而且理解什么时候应用什么技术。”这意味着当“实际问题”出现时,不要被“性感”和新事物所吸引,这需要更多的常规方法。 “了解生态系统的计算成本,可解释性,等待时间,带宽和其他系统边界条件以及客户的成熟度本身可以帮助数据科学家了解要采用的技术。”

基本软技能:另外六个技巧

Fralick提出的观点与数据科学家工作所需的非技术技能有关。这就是KDnuggets列表包含以下四个原因的原因:好奇心,团队合作,沟通技巧和业务敏锐度。 Zhan还在其给数据科学家的技巧中包括了关键的软技能,确定了诸如KDnuggets之类的“沟通技能”,但使用“领域专业知识”代替了“业务敏锐度”。商业。 (要了解有关交流技能的更多信息,请参阅技术人员的交流技能的重要性。)


Olivia Parr-Rud对此提供了自己的见解,并增加了另外两项软技能,并着重于创造力的作用,他断言:“我认为数据科学既是一门艺术,又像一门科学。”大脑两侧的优势。 “许多人将数据科学视为主要使用左脑的职业。我发现,要取得成功,数据科学家必须动用他们的整个大脑。”

她解释说,要在该领域取得进步,不仅需要技术能力,还需要创造力和领导才能所需的愿景:

大多数左脑/线性任务可以自动化或外包。为了提供作为数据科学家的竞争优势,我们必须能够使用大脑的两侧来识别模式并合成大量信息。我们必须是创新的思想家。左脑和右脑的融合产生了许多最佳结果。

她还强调了为什么清晰传达愿景至关重要:

作为数据科学家,我们的目标是利用数据来帮助客户增加利润。大多数管理人员不了解我们做什么或如何做。因此,我们需要像领导者一样思考,并以利益相关者能够理解和信任的语言来传达我们的发现和建议。

数据十二

关键技巧包括大量的技术工具,技能和功能,以及难以量化的质量,例如对创造力和领导力的天赋。最终,这不仅仅是数字游戏。由于数据科学不仅要在真空中创建模型,而且要提出实际应用来解决企业的现实生活中的问题,因此在该领域取得成功的人不仅需要掌握技术,还需要了解其业务领域并了解其需求。团队中的各个成员。