17个终极数据科学项目大幅提升你的知识和能力(可以免费获取哦)

作者: 易山松 | 来源:发表于2016-11-05 12:46 被阅读0次

简介

数据科学项目为你提供了一个有前途的方式来开展你的数据分析职业生涯。通过实际应用不仅学习了数据科学，你也得到了可以在简历里展示的项目。如今，招聘人员都是通过一个人的工作来评估候选人的潜力，而不是通过证书和简历。如果你只是告诉别人你所拥有的知识，却没有什么可以展示给他们，那么就毫无意义！这也是大多数人挣扎并错过的地方！

你可能已经解决了几个问题，但如果你不能呈现或者解释它们，怎么会有人知道你的能力？这就是这些项目将帮助你的地方。你可以把在这些项目上花费的时间当作你的培训课程。我保证，你花的时间越多，你就会成为更好的数据分析师！

下面列表中的项目都是精选过的，确保为你提供各种各样的问题，从不同的领域到不同的大小。我相信，每个人都必须学会如何巧妙地处理大型数据集，因此大数据集也被加了进来。另外，我已确保所有的数据集是开放的，并且可以免费访问。

补充信息

为了帮助你决定从哪儿开始，我把数据集分成了3个难度水准：
初学水平:
这个水平的数据集相当容易处理，并且不需要复杂度数据科学技术。你可以用基础的回归/分类算法来解决。而且，这些数据都有足够的教程来让你学习。在这个列表里，我也提供了能帮助你开始的教程。
中等水平:
这个水平的数据集就有点难度了。包含了需要使用厉害的模式识别技能的中/大型数据集。另外，特征工程在这里开始发挥它的作用了。不会再有机器学习技术的限制，任何所知的技术都可以拿来用。
高级水平: 这个水平最适合那些已经理解了高级话题的人，例如神经网络，深度学习，推荐系统等等。高维数据在这里面很常见。另外，这也是发挥创造力的地方，看看那些最优秀的数据科学家在工作上和代码里多么有创造力！

初学水平

Iris Data Set（鸢尾花）
这可能是模式识别领域最入门的，资源最丰富的数据集。学习分类技术没有比iris数据集更简单的了。如果你刚刚开始接触数据科学，这就是你开始的地方。里面只包含了150行4列的数据。
问题: 根据已有的特征给花分类。
开始: 获取数据 | 教程: 获取教程（英文）
Titanic Data Set
这是数据科学社群里另一个在全世界都被经常引用的数据集。在一些教程的指导下，这个项目应该可以给你足够的动力继续在数据科学领域深入下去。这个数据集有足够的空间去支持一些疯狂的想法！只要你合理的混合变量。这个数据集有891行12列。
问题: 预测泰坦尼克上活下来的乘客。
开始: 获取数据 | 教程: 获取教程（英文）
Loan Prediction Data Set（借贷预测）
在所有的行业里，保险业是运用分析和数据科学最多的领域。这个数据集将会让你充分体验到处理保险公司的数据是什么感觉。包括有哪些挑战，有哪些策略被用到，哪些变量会影响到结果等等。这是一个分类问题。这个数据集包含615行13列。
问题: 预测一项贷款是否会被批准。
开始: 获取数据 | 教程: 获取教程
Bigmart Sales Data Set（超市销量）
零售业是另一个充分利用分析技术来优化商业流程的行业。一些像商品放置，库存管理，定制供应，商品捆绑的任务，我们可以用数据科学巧妙地处理。正如名字所说，里面包含了商店的交易数据。这是一个回归问题。数据包含8523行12列。
问题: 预测销售。
开始: 获取数据 | 教程: 获取教程
Boston Housing Data Set
这是另外一个常见的用在模式识别领域的数据集。这个数据集来自于波士顿的房地产业。这是一个回归问题。这个数据集有506行，14列。所以，这是一个不算大的数据集，你可以尝试任何技术而不用担心你笔记本的内存。
问题: 预测业主拥有的房屋的中位数。
开始: 获取数据 | 教程: 获取教程

中等水平

Human Activity Recognition（人类活动预测）

这项数据集是由装备了嵌入式惯性传感器的智能手机采集的30个人体实验对象记录所构成。许多机器学习的课程用这个作为学生练习。现在轮到你了。这是一个多元分类问题。数据集包含10299行561列。
问题: 预测人类的活动范畴。
开始: 获取数据
Black Friday Data Set（黑色星期五）

这项数据集是一个零售商店的交易记录。这是一个经典的你可以从你每日的购物经验来探索特征工程技能的数据集。这是一个回归问题。这个数据集包含550069行12列。
问题: 预测消费金额。
开始: 获取数据
Text Mining Data Set（文本挖掘）

这个数据集源自2007年的暹罗大赛。这个数据集包含描述了发生在特定航班的问题的航空安全报告。这是一个多元高维分类问题。它有21519行，30438列。
问题: 根据标签给文档分类。
开始: 获取数据 | 获取资料
Trip History Data Set（旅行历史）

这个数据集来自美国的一个自行车分享服务。这个数据集会能你练习专业的数据清理技能。这个数据集提供了从2014第四季度以来的数据。每一个文件都有7列。这是一个分类问题。
问题: 预测用户的类别。
开始: 获取数据
Million Song Data Set（音乐数据）

你知道数据分析也能用在娱乐业吗？现在你自己来试试。这个数据集是一个回归问题。包含了515345行90个变量。但是，这只是原几百万歌曲的数据库的一小部分。
问题: 预测歌曲的发布时间。
开始: 获取数据
Census Income Data Set

这是一个非平衡分类（某一类比其他类多很多）也是一个经典的机器学习问题。机器学习现在正被广泛的应用于解决非平衡问题，例如癌症检测，诈骗检测等等。这个数据集包含了48842行14列。作为指导，你可以看看我的非平衡数据项目。
问题: 预测美国人口的收入等级。
开始: 获取数据
Movie Lens Data Set （电影推荐）

这个数据集让你建立一个推荐系统。你之前建过吗？这是数据科学领域最受欢迎的数据集之一。它有不同维度的版本。这里我使用了相对较小的。包含了1百万来自6000个用户关于4000部电影的评价。
问题: 给用户推荐新电影。
开始: 获取数据

高级水平

Identify your Digits Data Set

这个数据集让你学习，分析和识别图像里的元素。这正是你的相机如何检测你的脸部的，利用图像识别。现在到你建立并测试这个技术了。这是一个图像识别问题。这个数据集包含7000张28×28大小的图片，一共31MB。
问题: 识别照片中的元素。
开始: 获取数据
Yelp Data Set

这个数据集是Yelp数据挑战的第八轮的一部分。它包含了将近200,000张图片，将近2GB，以3个json文件提供。这些照片提供了关于4个国家10个城市当地的商业信息。它要求你利用文化潮流，季节趋势，文本挖掘，社交图谱挖掘等等技术从数据里找出有用的信息。
问题: 从图片里获取信息。
开始: 获取数据
Image Net Data Set

图片网提供了一系列问题，包括对象检测，寻址，分类和屏幕解析。所有的图片都是免费的。你可以在里面查找任何类型的图片然后在此基础上建立你自己的项目。截至目前，这个图片引擎已经有14197122张不同大小的图片，大约140GB。
问题: 根据你下载的图片类型不同而不同
开始: 获取数据
KDD 1999 Data Set（KDD是数据科学领域的跨学科会议）

我怎么能忘记KDD杯呢？最初，是KDD让这个世界知道了还有数据挖掘比赛。难道你不想见识一下他们曾经提供的数据吗？我保证，这会是一次丰富的体验。这个数据是一个分类问题。有4M行和48列，大约1.2GB。
问题: 给网络入侵检测器分好坏。
开始: 获取数据
Chicago Crime Data Set

现在对每个数据科学家都要求能够处理大数据集。公司也不再只在样本上测试，现在他们用完整的数据。这个数据集会给你提供足够多的帮助让你在自己机器上处理大数据积累经验。问题很简单，但是数据管理才是关键。这个数据集有6M的数据，是一个多元分类问题。
问题: 预测犯罪类型。
开始: 获取数据 | 要下载数据，点击 Export -> CSV

尾注

从上面的17个数据集，你应该找出最符合你能力的开始。也就是说，如果你是机器学习的新手，尽量避免选择高级水平的数据集。别贪多，也别被这么多要做的吓到了。相反，想想怎么让自己进步。一旦你完成了2-3个项目，把它们展示在你的简历上和github上（非常重要！）。现在许多猎头通过追踪github资料。你不要想着做完所有的项目，而是应该选出基于数据集，领域，数据大小最令你感兴趣的。

17个终极数据科学项目大幅提升你的知识和能力(可以免费获取哦)

简介

补充信息

目录

初学水平

中等水平

高级水平

尾注

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读