2019-03-01（未完成）

作者: 看热闹的外行人 | 来源:发表于2019-03-01 18:33 被阅读0次

最近在学习数据分析，接触到知乎上知友“”的内容，有一篇是他将豆瓣上6万本书籍基础信息爬到并且分享给大家（链接：），于是自己也想以这部分数据为例，以我自己对数据分析的方法论，实践一次。

前提有个说明，是因为不知道他是以什么样的规则爬取的，所以样本可能有偏差，但这不可避免，因此不再讨论。

出发点

数据分析第一步：知道自己为什么要分析。

分析的目的是为了解决一个业务问题、验证一个假设、发现一个探索性的规律等，而不是为了分析而分析。

所以我给自己预设一个场景：我是一个图书爱好者，希望能从这里面找到好书；以及我是一个出版行业的入门者，希望能从这里面的数据探索一些趋势，增加对初版行业的了解。

初始数据的整理

拿到这张表，我发现表格还是需要整理的，例如：

1、作者里面有出现作者和译者信息的情况、有多个作者的情况；

2、出版时间有多种格式

3、价格有不同类型的价格（如台币）、货币的不同表现方法

4、...

因此需要对数据做基础的清晰和整理，使之成为一张可以分析的表格。

但在实际清理过程中发现，直接在原数据里做清理，工作量和难度都很大，因此决定先做正常分析，分析过程中发现有误差的情况下，再做处理。这样灵活性更高，并且显著降低工作量。

分析

1、我想知道哪些书是好书

首先从图书分值分布来看，整体打分是符合正项分布的。另外也能看到一个异常：约有6600本书目前还是0分，即还没有人看，占比超过了10%。

单看正项分布的区域，发现大部分书籍的评价是在7.4-8.7分左右，因此可以初步猜测当一本书分数小于7.4分且评价人数不是过低（比如低于200、300），可能内容质量就已经不高；而高于8.7且有很多人看的书，基本可以判断为很高质量的书籍了。

网友评论

本文标题：2019-03-01（未完成）

本文链接：https://www.haomeiwen.com/subject/yldjuqtx.html

2019-03-01（未完成）