数据科学资源整理

作者: 小林梓 | 来源:发表于2018-07-18 17:04 被阅读8次

数据科学主要包括两个方面：用数据的方法研究科学和用科学的方法研究数据（好吧，这明显是在玩文字游戏~），前者包括生物信息学、天体信息学、数字地球等领域；后者包括统计学、机器学习、数据挖掘、数据库等领域。

所以大家形容数据科学家“比软件工程师更擅长统计学，比统计学家更擅长统计工程”。看来数学、统计学和机器学习……一样都跑不脱了。

数学的话这里推荐一下可汗学院出的讲解视频，非常经典：网易公开课

麻省理工的线性代数课也值得一看：麻省理工公开课：线性代数_全35集

关于机器学习的资源我之前已经整理过了，所以这里就不过多赘述了。偷懒：)

这里主要就介绍一些课程和数据库吧，大致内容是这样的：

1）学习网站

2）从入门到进阶的项目

3）获取数据集的网站

4）工具列表

5）其它

那就继续往下看吧。

一、学习网站

国内的搜了下基本都是零零散散的，专题性不是很强，所以喜欢看视频的话可以去慕课网、网易公开课找主题相关的课程（关键词：机器学习/数据挖掘/数据分析等），实验楼提供文档和在线实操，w3cschool的课也不错，阶段性也比较强。

国外对数据科学可能针对性更强一点，大家可以了解下这几个网站：

EdX

DataCamp（赞！）

Dataquest

Udemy

二、从入门到进阶的项目

这样写会比较系统，而且都是比较经典的一些项目，大家看看都会不会。

1、初级

刚入门还是会推荐一些比较容易的数据集，而且也不需要复杂的数据科学技术，可以使用基本回归或分类算法来解决。

鸢尾花分类：根据可用属性预测花的种类

贷款预测：预测贷款是否会获得批准

Big mart销售预测：预测商店的销售情况

波士顿住房数分析：预测自住房屋的中位数值

学生在校表现评估：使用分类和聚类技术来处理数据

研究身高与体重：预测一个人的身高或体重

2、中级

中级的话会更有挑战性一点，数据集更大，需要一些良好的模式识别技能。

黑色星期五销售预测：预测购买金额

文本挖掘：根据标签对文档进行分类

歌曲年代预测

人口普查分析：预测美国人口的收入水平

电影推荐：向用户推荐新电影

Twitter情感分析：确定哪些推文容易受欢迎

3、高级

下面会涉及到神经网络，深度学习，推荐系统等高级主题。

数字识别：识别图像中的数字

城市声音分类：从音频中分出声音类型

人声识别：寻找声音的主人

芝加哥犯罪分析：预测犯罪类型

演员年龄预测

上面的项目都挺有意思的，大家可以跟着动手练练。

又给大家找了几个中文文档：

NBA常规赛结果预测

神经网络实现手写字符识别系统

K-近邻算法实现手写数字识别系统

三、获取数据集的网站

1、亚马逊网络服务

亚马逊在其AWS web service上提供大型数据集，比如

Google图书的n-gram列表：大量书籍的常用词汇和词汇组

Common Crawl Corpus：来自超过50亿个网页的爬行数据

Landsat图像：地球表面的中等分辨率卫星图像

2、谷歌云平台

和亚马逊一样，谷歌也有一个云托管服务。Google BigQuery公共数据集列出了网页上的所有数据集，比如

Github活动：包含280多万个公共Github存储库的所有公共活动。

历史天气：数据来自9000 NOAA气象站从1929年到2016年。

3、Kaggle

Kaggle是一个组织机器学习竞赛的数据科学社区，网站上有各种外部贡献的有趣数据集。你可以通过参加比赛从Kaggle下载数据。每个比赛都有自己的相关数据集。在新的Kaggle Data sets中也有用户提供的数据集。

4、UCI机器学习库：用户提供的有趣数据集

5、Quandl：经济和金融数据的存储库

6、Twitter：拥有强大的流媒体API

7、Quantopian：开发，测试和操作股票交易算法的网站

四、工具列表

Tableau：数据可视化分析软件，帮助快速轻松地分析数据

Bokeh：一个交互式可视化库，面向现代Web浏览器进行演示。它的目标是提供优雅、简洁的多功能图形构造

Apache Hadoop：允许使用简单的编程模型跨计算机集群分布式处理大型数据集

D3.js：用于根据数据操作文档的JavaScript库。

Jupyter：一个开源Web应用程序，允许创建和共享包含实时代码、方程式、可视化和叙述文本的文档。

OpenRefine：处理凌乱数据的强大工具

Orange：新手也能用的开源机器学习和数据可视化工具

KNIME：无缝地混合工具和数据类型

DataMelt：面向科学家、工程师和学生的免费数学软件，可用于数值计算，统计，符号计算，数据分析和数据可视化等。

RapidMiner：通过使用最新的机器学习算法和技术（如Tensorflow，Hadoop和Spark）消除了尖端数据科学的复杂性。

五、其它：

什么是数据科学？数据科学的基本内容

如何成为数据科学家？

统计学习方法学习笔记一

Iris Data Set（鸢尾属植物数据集）

没资源？下一秒就可以加入的10个数据科学项目！

最适合练手30个的机器学习开源项目

以上就是我整理的关于数据科学的一些内容，如果不全还请各位大佬多多包涵(o°ω°o)

大家可以补充，我看到也会再更新上来滴。

希望小伙伴们能多分享一点学习经验，带带二师弟~们啊~

网友评论

本文标题：数据科学资源整理

本文链接：https://www.haomeiwen.com/subject/tkqapftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据科学资源整理

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习与计算机视觉

深度学习·神经网络·计算机视觉

IT干货分享

Analytical thinking