美文网首页
数据科学家应该拥有的好习惯丨数据工匠简报(Apr. 24)

数据科学家应该拥有的好习惯丨数据工匠简报(Apr. 24)

作者: Datartisan数据工匠 | 来源:发表于2017-04-24 13:27 被阅读40次

数据科学家应该拥有的好习惯

分析数据前,一定要尽可能多的进行数据可视化!可视化!可视化!做exploratory data analysis我上过的几乎所有的应用性的统计课程上的老师都会强调这一点。这个习惯对于数据科学家、统计学家来说估计是最最实用的。

分析数据前,一定要尽可能多的进行数据可视化!可视化!可视化!做exploratory data analysis

我上过的几乎所有的应用性的统计课程上的老师都会强调这一点。这个习惯对于数据科学家、统计学家来说估计是最最实用的。

在实际的数据分析过程中,数据可视化可以揭示很多insights:从选择什么样的模型,选择哪些feature建模,到如何分析结果,解释结果等等。

给一个很著名的例子, Anscombe's quartet (安斯库姆四重奏):这个例子包含四组数据。每组数据有11个(x, y)数据样本点。

四组数据样本里x的均值方差全相等,y的均值方差基本相等,x与y的相关系数也很接近。
导致的结果是,四组数据线性回归的结果基本一样。但是,这四组数据本身差别很大。如下图。


编程需要多少数学知识?

昨天大学同学群里发了一个链接, 点开一看,原来是当年参加高考的数学试卷, 于是饶有兴趣的又看了一遍, 让我感到震惊的是,很多试题连题目都看不懂了!

比如这道题:


天呐, 这都是些什么啊, 我当年到底是怎么考上大学的?

再联想到大学学的微积分,线性代数, 离散数学, 除了一些基本概念之外,也忘的差不多了。

数学这么差 , 竟然在计算机行业待了10多年, 到底是怎么混的?


Kaggle CTO Ben Hamner :机器学习的八个步骤

现在学习机器学习和人工智能比以往任何时候都更好。近年来,这一领域飞速发展并硕果累累。专家们开源了各种高质量的软件工具和库,新的线上资源和博文也层出不穷。机器学习带动了产业内数十亿美元的收入,催生出了空前的资源和海量的就业机会。但这也意味着如何入门机器学习让人有点无所适从。下面是我的入门方法。如果你在本文中的某处卡住了,请搜索 Kaggle(也许某人以前也遇到了同样问题),并在 Kaggle 论坛上提出问题(如果以前没人提问过该问题),这是找到方向并解决问题的好方法。

从一个你想要解决的问题而不是令人生畏的、不系统的主题列表(你可以从谷歌上搜索到很多的机器需诶心资源列表,这里我就不在提供)出发,你会很容易地专注、主动学习。解决问题会促使你更深入更投入,而不是仅仅被动地阅读一些有关机器学习的文章。�


以上简讯由数据工匠提供,感兴趣的小伙伴可以通过扫描简报后的二维码链接原文,更多数据科学资讯尽在数据工匠,扫码关注 Datartisan 数据工匠公众号!如果你看到什么与“数据科学”有关的好文或者信息科技优质的文章,可以随手转发给我们,让更多热爱数据科学的小伙伴一起成长!


相关文章

网友评论

      本文标题:数据科学家应该拥有的好习惯丨数据工匠简报(Apr. 24)

      本文链接:https://www.haomeiwen.com/subject/wvrhzttx.html