美文网首页读书程序员
数据告诉你|大家在读什么,写什么,问什么

数据告诉你|大家在读什么,写什么,问什么

作者: Sudden | 来源:发表于2017-05-28 11:56 被阅读72次
01 正确地勤奋

时间如此宝贵,我们应该以正确的方式勤奋。那什么才是正确的勤奋姿势呢?

想办法,自动化你的工作。

比如,你的老板让你去统计一下对手公司的产品价格数据,你是要一条一条地去复制粘贴么?

比如,你的老板让你去收集近一个月的项目招标书,你是要一条一条地去搜索复制么?

NO!

最近,我学习了一下web scraper,这是google chrome浏览器的一个插件,是爬取网页信息的神器。

与python相比,web scraper易学易上手,在简要爬取网页内容方面,其可视化程度,便捷性都略胜一筹。

不过若是想要深度爬取网页信息,还是建议python走起。

好了,闲话不多说,看看我用web scraper干了些什么。
</br>

02 爬取爬取爬取

学会了web scraper,好奇心骤然升起:

  1. 大家最近都在读什么书呢
  2. 大家最近都在问什么问题呢?
  3. 大家最近喜欢看什么样的文章呢?

于是,我用web scraper分别爬取了:

  • 亚马逊图书和豆瓣阅读上的100个热门书籍,作者,评分和评论数;
  • 知乎上最近1个月的200个热门回答,点赞量,作者以及作者介绍;
  • 简书最近的100篇热门文章,及其阅读量,点赞量和作者。

然后把这些数据以csv 格式存储到本地,放到SQL关系数据库中,再顺带用python jieba分词看看关键字,用聪明的大脑分析。整个爬取分析流程如下图:请大家忽略那个双黄蛋,谢谢(ಥ_ಥ)

web scraper抓取流程

结果蛮有意思的,来看看吧!(以下都是个人观点,相信我,我说的都是错的)

文末有总结
</br>

03 大家在读什么

要知道,向别人索要书单,是让自己退步最快的方式。以下分析,仅限于了解大众的口味。

说说中文图书吧,不论是亚马逊还是豆瓣阅读的数据,都显示:

1.更多的人喜欢读小说——前10名无一例外,全是虚构类

  • 更多的人选择推理类,科幻类的小说作品。
  • 恭喜东野圭吾,刘慈欣荣获最受读者关注作者奖。
  • 追风筝的人,评论数,讨论量远超第二名,荣获最受读者关注图书奖。
  • 最近欢乐颂这部小说很火啊~

2.非虚构类图书,人们口味偏向于以下三类:

  • 社会科学:乌合之众,人类简史,极简欧洲史
  • 个人成长:好好学习,心理学,时间管理。
  • 儿童教育类

另,穷查理宝典这本被严重低估的书籍,榜上有名,第83名,耶。

受欢迎的作者们

</br>

04 大家在问什么

以知乎本月热门回答url为入口,爬取了本月所有热门回答,将这200个问题的标题用jieba库分词并查看权重。

得到下面这张图,通过该图,我们可以粗略的了解,大家最近都在关心些什么话题:

户型,国外品牌,小孩,资源,游戏,买房,健康……

结合SQL,进一步分析数据,得到以下几个推论:

  1. 人们越来越关注健康:点赞量前20的回答中,有6个关于健康
  2. 年轻人很迷茫,人们越来越关注个人成长:可能源自知乎用户群体特征
  3. 人们喜欢听故事,特别是剧情反转,咸鱼翻身的故事
  4. 热门回答中,获得总点赞数最多的答主:丁香医生(5170),周小肉(3025),娱我所欲也(2962)
热门问题关键字

</br>

05 大家喜欢读什么样的文章

以简书本月热门文章为入口,爬取了简书上100篇热门文章的标题,作者,浏览量,点赞量。

想要研究一下,什么样的文章标题能够吸引大家的注意力,哪个作者影响力更大。

  1. top100中,获得总点赞量前三的作者:陈姿依(5048),韩大爷的杂货铺(3274),有备而来的路人甲(3216)
  2. top100中,获得总浏览量最高的作者:韩大爷的杂货铺(26450),瓯南(18677),空白中的独舞(14082)
  3. 人们喜欢读哪类文章(基于点赞量和浏览量):
    • 清单类:大学两年读了200本书,想你推荐这7本
    • 具体数字类:30个孤独的夜晚,我为你准备了30段独白和20张照片
    • 青春梦想类:有趣的灵魂很少,但大家都觉得自己是例外
    • 实践方法论类:每天早起半小时读书,坚持一年会改变自己吗

同样地,将这100篇文章标题用python jieba库分词并分析权重,得到下图,看看大家在写什么,读什么文章:

读书,大学,塑身,月薪,思维习惯,低品质,干货……

热门文章标题关键字

</br>

06 总结

通过Web Scraper, python jieba, sql语句,爬取并简要分析了豆瓣,亚马逊,知乎,简书上,最近1个月的话题趋势,总结如下:

  1. 读书:人们更喜欢读推理科幻类小说,和社会科学/个人成长/儿童教育类非虚构类书籍
  2. 提问:人们越来越关注健康,个人成长,人们喜欢听故事
  3. 写作:人们更容易点击清单类/具体数字类/方法论类/梦想类的文章标题

以上分析仅供参考,希望对你有用。

相关文章

  • 数据告诉你|大家在读什么,写什么,问什么

    01 正确地勤奋 时间如此宝贵,我们应该以正确的方式勤奋。那什么才是正确的勤奋姿势呢? 想办法,自动化你的工作。 ...

  • #043-大家在读什么

    @Whalechou,几乎一无所知的恋人。 - 齐奥朗《眼泪与圣徒》,装帧好,内容乍看骇然,实则就是一个信上帝的人...

  • 数据告诉你什么?

    这是我做视频号以来,成绩最好的一个,虽然也不怎么样,但我觉得自己还是小有进步。 我喜欢用数据说话,因为数据背后更接...

  • 你在读什么?

    前天,公众号新世相做了个活动。它将豆瓣排名前一百的书列出来,让你选择你读过的书,然后系统自动给你生成一张海报。我弄...

  • 【文本研读】读《散步》悟作文之道

    不少同学写作情况不佳,但根不在写,而在读。为什么呢?现在以《散步》为例,告诉大家,如何读写相联,以读促写。 一、读...

  • 读书:要多问个问什么 2022-03-13

    读书:要多问个问什么 在读书时,要多问个为什么。作者为什么这样写,有什么特别的含义?为什么不用另外一个表述? 经过...

  • 数据告诉你即刻上大家都在关注什么

    即刻App是我很喜欢的一款产品。 在信息过剩的时代里,它能帮我解决信息获取和过滤的问题,一些没有特定环境生产和维护...

  • 用Python一秒自动美化表格|python的1024种玩法(3

    之前写过一篇文章:大学生们都在读什么书?让Python用数据告诉你![https://www.zhihu.com/...

  • 问问题 - 回问题

    问大问题 为什么问? 你为何这么问? 为什么这个时候问? 为什么不告诉我你的情况? 小学该学的 语言(交流) 哲学...

  • 大学,你在读什么

    问题一:你真的在读大学吗? 上大学前,我真的以为大学像老师所说、各大成功人士所述和我的幻想一样:大学,你可以学自己...

网友评论

    本文标题:数据告诉你|大家在读什么,写什么,问什么

    本文链接:https://www.haomeiwen.com/subject/qjthfxtx.html