学习数据挖掘和数据科学的7个步骤

作者: Eugene Taylor
创建日期: 12 八月 2021
更新日期: 22 六月 2024
Anonim
数据挖掘-2 7 线性判别分析 1
视频: 数据挖掘-2 7 线性判别分析 1

内容


资料来源:Paul Fleet / Dreamstime.com

带走:

最好通过做来学习数据科学,但是统计和机器学习的良好基础也很重要。

我经常被问到如何学习数据挖掘和数据科学。这是我的总结。

通过这样做,您可以最好地学习数据挖掘和数据科学,因此请尽快开始分析数据!但是,不要忘了学习理论,因为您需要一个良好的统计和机器学习基础来了解您的工作并在大数据的喧嚣中找到真正的价值所在。

这是学习数据挖掘和数据科学的七个步骤。尽管它们已编号,但您可以并行或以其他顺序进行。

  1. 语言:学习R,Python和SQL
  2. 工具:了解如何使用数据挖掘和可视化工具
  3. 书籍:阅读入门书籍以了解基本知识
  4. 教育:观看网络研讨会,参加课程并考虑数据科学的证书或学位(请参阅Ben Loricas的更多内容:如何培养数据科学家。)
  5. 数据:检查可用的数据资源并在其中找到内容
  6. 比赛:参加数据挖掘比赛
  7. 通过社交网络,小组和会议与其他数据科学家互动

在本文中,我可以交替使用数据挖掘和数据科学。请参阅我的演讲“ Analytics Industry Overview”,其中我将探讨统计,知识发现,数据挖掘,预测分析,数据科学和大数据等不同术语的演变和流行。

1.学习语言

最近的KDnuggets投票发现,用于数据挖掘的最受欢迎的语言是R,Python和SQL。每种都有很多资源,例如:

  • 带有R的免费数据科学电子书
  • Python数据科学入门
  • 用于数据分析的Python:用于现实世界数据的敏捷工具
  • 必不可少的Python:数据源到数据科学
  • W3学校学习SQL

2.工具:数据挖掘,数据科学和可视化软件

有许多用于不同任务的数据挖掘工具,但是最好学习如何使用支持整个数据分析过程的数据挖掘套件。您可以从开源(免费)工具开始,例如KNIME,RapidMiner和Weka。


但是,对于许多分析工作,您需要了解SAS,这是领先的商业工具并且被广泛使用。其他流行的分析和数据挖掘软件包括MATLAB,StatSoft STATISTICA,Microsoft SQL Server,Tableau,IBM SPSS Modeler和Rattle。

没有错误,没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时,您就无法提高编程技能。

可视化是任何数据分析的重要组成部分。了解如何使用Microsoft Excel(适用于许多较简单的任务),R图形(尤其是ggplot2)以及Tableau(一种出色的可视化软件包)。其他好的可视化工具包括TIBCO Spotfire和Miner3D。

3.书籍

有许多可用的数据挖掘和数据科学书籍,但是您可以检查以下内容:

  • 数据挖掘和分析:基本概念和算法,由Mohammed Zaki和Wagner Meira Jr.提供免费PDF下载(草稿)。
  • 数据挖掘:实用的机器学习工具和技术,由Weka的作者Ian Witten,Eibe Frank和Mark Hall撰写,并在示例中广泛使用了Weka
  • 统计学习,数据挖掘,推理和预测的要素,作者Trevor Hastie,Robert Tibshirani,Jerome Friedman。数学导向的精彩介绍
  • Roberto Battiti和Mauro Brunato撰写的LIONbook:学习和智能优化,可在网上免费获取
  • 海量数据集的挖掘,作者:A。Rajaraman,J。Ullman
  • StatSoft电子统计书(免费),包含许多数据挖掘主题

4.教育:网络研讨会,课程,证书和学位

您可以通过观看有关分析,大数据,数据挖掘和数据科学的最新主题的许多免费网络研讨会和网络广播开始。

还有许多在线课程,短期和长期的,其中许多是免费的。 (请参阅KDnuggets在线教育目录。)

特别检查以下课程:


  • Coursera上的机器学习,由Andrew Ng教授
  • 加州理工学院教授Yaser Abu-Mostafa在edX上从数据中学习
  • Syracuse iSchool开设的应用数据科学在线课程
  • 使用Weka进行数据挖掘,免费在线课程
  • 还可以从我的数据挖掘课程中免费获取在线幻灯片,该课程是一学期的数据挖掘入门课程

最后,考虑获得数据挖掘,数据科学或高级学位(例如数据科学的硕士学位)的证书。

5.资料

您将需要数据进行分析-请参阅数据挖掘的数据集的KDnuggets目录,包括:

  • 政府,联邦,州,城市,本地和公共数据站点和门户
  • 数据API,中心,市场,平台,门户和搜索引擎
  • 免费的公共数据集

6.比赛

同样,您将最好地边做边学,因此可以参加Kaggle比赛。从初学者比赛开始,例如使用机器学习预测泰坦尼克号生存。

7.互动:会议,小组和社交网络

您可以加入许多同龄人组。请参阅用于分析,大数据,数据挖掘和数据科学的前30个LinkedIn组。

AnalyticBridge是一个活跃的分析和数据科学社区。

您可以参加许多有关分析,大数据,数据挖掘,数据科学和知识发现的会议。

另外,考虑加入ACM SIGKDD,后者组织年度KDD会议-该领域的领先研究会议。

本文摘自KDNuggets.com。经作者许可使用。