数据科学家应该拥有的好习惯
![](https://img.haomeiwen.com/i1818544/dc8ef03aef4d2aa2.png)
分析数据前,一定要尽可能多的进行数据可视化!可视化!可视化!做exploratory data analysis我上过的几乎所有的应用性的统计课程上的老师都会强调这一点。这个习惯对于数据科学家、统计学家来说估计是最最实用的。
分析数据前,一定要尽可能多的进行数据可视化!可视化!可视化!做exploratory data analysis
我上过的几乎所有的应用性的统计课程上的老师都会强调这一点。这个习惯对于数据科学家、统计学家来说估计是最最实用的。
在实际的数据分析过程中,数据可视化可以揭示很多insights:从选择什么样的模型,选择哪些feature建模,到如何分析结果,解释结果等等。
给一个很著名的例子, Anscombe's quartet (安斯库姆四重奏):这个例子包含四组数据。每组数据有11个(x, y)数据样本点。
四组数据样本里x的均值方差全相等,y的均值方差基本相等,x与y的相关系数也很接近。
导致的结果是,四组数据线性回归的结果基本一样。但是,这四组数据本身差别很大。如下图。
![](https://img.haomeiwen.com/i1818544/7a99040ac3a4abc3.png)
编程需要多少数学知识?
![](https://img.haomeiwen.com/i1818544/441668b0f3bd9989.png)
昨天大学同学群里发了一个链接, 点开一看,原来是当年参加高考的数学试卷, 于是饶有兴趣的又看了一遍, 让我感到震惊的是,很多试题连题目都看不懂了!
比如这道题:
![](https://img.haomeiwen.com/i1818544/268ed1d9266b0c22.png)
天呐, 这都是些什么啊, 我当年到底是怎么考上大学的?
再联想到大学学的微积分,线性代数, 离散数学, 除了一些基本概念之外,也忘的差不多了。
数学这么差 , 竟然在计算机行业待了10多年, 到底是怎么混的?
![](https://img.haomeiwen.com/i1818544/69ad372f64a5b2c5.png)
Kaggle CTO Ben Hamner :机器学习的八个步骤
![](https://img.haomeiwen.com/i1818544/6306e6bb55abbf20.png)
现在学习机器学习和人工智能比以往任何时候都更好。近年来,这一领域飞速发展并硕果累累。专家们开源了各种高质量的软件工具和库,新的线上资源和博文也层出不穷。机器学习带动了产业内数十亿美元的收入,催生出了空前的资源和海量的就业机会。但这也意味着如何入门机器学习让人有点无所适从。下面是我的入门方法。如果你在本文中的某处卡住了,请搜索 Kaggle(也许某人以前也遇到了同样问题),并在 Kaggle 论坛上提出问题(如果以前没人提问过该问题),这是找到方向并解决问题的好方法。
从一个你想要解决的问题而不是令人生畏的、不系统的主题列表(你可以从谷歌上搜索到很多的机器需诶心资源列表,这里我就不在提供)出发,你会很容易地专注、主动学习。解决问题会促使你更深入更投入,而不是仅仅被动地阅读一些有关机器学习的文章。�
![](https://img.haomeiwen.com/i1818544/ea79e2c759c6b4c7.png)
以上简讯由数据工匠提供,感兴趣的小伙伴可以通过扫描简报后的二维码链接原文,更多数据科学资讯尽在数据工匠,扫码关注 Datartisan 数据工匠公众号!如果你看到什么与“数据科学”有关的好文或者信息科技优质的文章,可以随手转发给我们,让更多热爱数据科学的小伙伴一起成长!
![](https://img.haomeiwen.com/i1818544/1cf2892d5f068e6d.png)
网友评论