美文网首页机器学习互联网行业知识分享GitHub经典
小趴趴--知乎精华回答的非专业大数据统计

小趴趴--知乎精华回答的非专业大数据统计

作者: 小耸 | 来源:发表于2016-02-16 12:01 被阅读2721次

入坑知乎三年有余,数月前灵光闪现,做个网页爬虫,专爬知乎下的精华回答,作统计分析。
以下,即是此项目的分析结果,希望能从另一个角度呈现出不一样的知乎。

代码

"talk is cheap, show me the code!" --屁话少说,放码过来。心急的朋友可以直接戳链接看源码,用的是Python3:
https://github.com/SmileXie/zhihu_crawler

算法简述

1.爬虫算法

根话题的话题树为启始,按广度优先遍历各子话题。话题的遍历深度为3。解析各话题下的精华回答。

知乎的话题树.png

2.收集数量

目前收集的信息共计50539个精华回答。

3.分析内容

  • 精华回答的点赞数,答案长度等;
  • 答题用户的id,点赞数,地区,性别,学历,学校,专业等;

统计结果

1.匿名答主

50539篇精华回答中,有3308篇的回答者选择了匿名发布答案。

精华回答答主匿名情况.png

2.答主性别

男15740,女5749.是否从一个侧面印证了知乎上程序员占了很大的比例.


精华回答答主性别.png

3.答主受教育情况

按答主的所在(毕业)学校统计,TOP10的学校是:

答主学校TOP10.png

可以看出,中国的顶尖高校对知乎的精华回答贡献颇多。

按答主所在的专业统计,TOP10专业是:

答主专业TOP10.png

果然是程序猿的天堂。(上面的数据,我针对“计算机”和“金融”的数据做了处理,把“计算机”“计算机科学”“计算机科学与技术”合并为“计算机”,把“金融”和“金融学”合并为“金融”)

4.精华回答的赞同数

按精华回答所获得的赞同数落在的区间,做统计

各精华回答获得的赞同数落在的区间.png
赞同数区间 此区间内的精华回答数量
0~4999 46546
5000~9999 2623
10000~14999 713
15000~19999 305
20000~24999 154
25000~29999 94
30000~34999 44
35000~39999 22
40000~44999 16
45000~49999 8
50000~54999 4
55000~59999 3
60000~64999 3
65000~69999 0
70000~74999 2
75000~79999 1
80000~84999 0
85000~89999 0
90000~94999 1
95000~99999 0

可见,大多数精华回答获得的赞同数是处于0~4999范围内的。
目前统计到的最高票回答是这篇:《哪些素质很重要,却是读书学不来的》中肥肥猫的回答,共获得了91433个赞同。

5.回答字数

如果按以下标准将精华回答按字数分类:

字数 分类
0~99 短篇
100~999 中篇
1000~9999 长篇
10000以上 超长篇

那么,精华回答的字数分布如下:

精华回答的字数分布.png
看来各位答主对没少在知乎上码字。长篇的数量甚至超越了短篇和中篇。
目前收集到的最长字数回答是:《人究竟能抠到什么程度》中郭永年的回答,答主扬扬洒洒写了98904字,敢情是在知乎上写小说了啊。

后记

作为一个对Python和C都有使用的程序员,在开发的过程中不断地领略着这两种语言的巨大差异。
Python把对开发者友好做到了极致,牺牲了性能。
C把性能做到了极致,牺牲了对开发者的友好。
这个项目只用了500行Python,如果换作500行C,估计只能完成上述功能的1/10吧。
最后再贴一遍源码:
https://github.com/SmileXie/zhihu_crawler

相关文章

  • 小趴趴--知乎精华回答的非专业大数据统计

    入坑知乎三年有余,数月前灵光闪现,做个网页爬虫,专爬知乎下的精华回答,作统计分析。以下,即是此项目的分析结果,希望...

  • 知乎挖掘经典团队成立

    前几天在知乎提了个问题:怎么找到知乎早期的经典回答,实话说我并没有通过现有回答得到解决办法。不过“使知乎沉淀的精华...

  • 你离成功只差这几句毒鸡汤

    笑死我的标题党 《知乎高赞背后,不为人知的10个秘密》《知乎回答的最高境界,是没有正文的回答》《这是我见过最为精华...

  • 趴趴狗

    我的生日马上就要到了。妈妈不知道要送我什么好,妈妈上了淘宝找了半天看到了一个趴趴狗。于是就送一个趴趴狗送给...

  • 2023-02-09

    我是小趴菜。

  • 谁的童年里都有一个姥姥家

    除夕夜一过,绷着的兴奋的神经都松弛下来,上午外面初春阳光温暖的刚好,我懒趴趴的躺在姥姥家热乎乎的小炕上晒阳阳,长辈...

  • 😷疫情你都被搞废了

    疫情你搞什么搞?搞什么搞? 你真是个无中生有的鬼东西,搞事情你最积极;被教育后你最先趴菜;你个小趴菜小趴菜!!! ...

  • 小趴狗

    儿子喜欢跟在我屁股后面,我去哪他跟到哪,尤其是上厕所的时候,我一不小心让他跟进去,那就麻烦了,不是伸手够马桶里的水...

  • 小趴菜

    驱车在国道上,前往襄阳一酒店赴宴,五六十码悠哉悠哉的,车内循环的纯乐,是春花秋月一场梦。 隔着车窗和墨镜,前方天空...

  • 实体店如何做营销 如何进行推广和经营?

    今天看到一篇文章说的新手做营销,不知道怎么开始,刚好前几天在知乎有人邀请我会回答他的问题,他在二线城市开了一件轰趴...

网友评论

  • SuiLing:感谢分享,但我不懂代码是硬伤
  • 听风阁:请问楼主数据分析是怎样做呢
    小耸:@听风阁 用echart
  • starCoder:最近准备入坑学习下爬虫和分析,文章很不错
  • 296253fa1831:楼主的echarts用的很好,图表很漂亮。能否将整个项目共享出来学习一下,谢谢。
  • 745398e2f881:《人究竟能抠到什么程度》我他妈竟然给看完了

本文标题:小趴趴--知乎精华回答的非专业大数据统计

本文链接:https://www.haomeiwen.com/subject/dxbpkttx.html