【赶紧收藏】大学生都在读什么书？让Python用数据告诉你

作者: 东写西读1 | 来源:发表于2021-02-16 11:46 被阅读0次

【赶紧收藏】大学生都在读什么书？让Python用数据告诉你
用Python一秒自动美化表格|python的1024种玩法（3
《人民日报》推荐书单 “学霸”们爱看的书都在这
用数据告诉你为什么Python这么火
这才是真正适合小白的教程：Python有什么用？数据化运营怎么做
数据告诉你｜大家在读什么，写什么，问什么
你在读什么书
你在读什么书？
最全Python数据科学小抄，赶紧收藏吧！
Python代码加速方法

封面.jpg

看了下，回答里推荐的书都比较主观。其实我觉得，书也要讲究在对的时间读到合适的书，在人的成长阶段中，对你帮助最大的，并不一定是该领域经典的书，而应该是现阶段适合你的书。

如果你是一个金融初学者，上来就啃《金融学》这种大部头，反倒不如读《图解金融学》这种偏入门的书对你帮助大，虽然前者比后者评分高了太多。

所以，对于大学生来说，最好的选书方式，不是盲目追求那些经典著作，而是要看同龄人、同专业的人都在读什么。因为大学生们大多有着相似的视野和生活经历、这样更有参照性。

于是，秉承着适合大学生读的书，一定是大学生自己亲手找出来的这个思想，在春节假期里，我用Python爬取了全国24个985和211高校图书馆的16多万条热门浏览（借阅）记录（24个高校名单已经附在文末，快来看看有没有你的大学！），提炼了这一份大学生必读TOP150书单。

这份必读书单，不带一点主观倾向，数据来自于大学图书馆里的热门借阅、热门浏览记录，换句话说，一定是历年大学里的学长学姐甚至还在读的大学生们用自己的读书经历投出来的好书。

一、使用方式

点击这个链接：
高校热门书单TOP150

会进入一个在线表格。表格长这个样子：

热门书单

表格里几个列的含义分别为：

总浏览次数：24所高校的大学生浏览这本书的总次数、
霸榜高校数：这本书出现在24所大学中多少所大学的热门书单里
霸榜率：霸榜高校数/统计的总高校数（24）。就是为了给你更直观的认识，排名就是按照这个数据排的。
榜单排名中位数：这本书绝大多数情况下在这些大学榜单中的排名。

当然，每本书仅仅给个高校的排名还是不够的，为了让你直观了解这本书，我又费劲爬取了豆瓣评分和详情链接，点击跳转就可以跳到对应的书籍详情页。

从总体榜单可以看到，排行榜中小说类书籍居多，很多热门小说的精彩片段都收录在高中课本里，可能大家在高中时被课本安利到，但是没有时间读全本，上大学之后就第一时间把全本补上。

高校热门浏览量前三名分别是：《追风筝的人》、《百年孤独》、《平凡的世界》，总浏览次数都已经上万。

第一名《追风筝的人》，在24个高校的热门浏览图书榜单中，这本书出现在了22次，霸榜率91.67%。你可以找找自己大学图书馆的热门浏览数据，这本书很大概率在榜单上。

《百年孤独》那个经典的开头自不必多说，曾经我写过一篇关于老罗TNT的文章，还致敬了这个开头，所以本书排第二也名副其实。

《平凡的世界》其实总体浏览量远远高于以上两本，但是鉴于霸榜率只有83.33%，只能屈居第三。

当然，总体榜单并不一定可以满足所有专业同学的需求，所以除总体榜单外，我还根据中图分类法划分的22个专业领域分别出了一份书单，你可以找到自己对应专业的分类，看看自己专业领域的同龄人都在看什么书。

点击相应的sheet页，可以按照中图分类法查看不同领域的书籍排名，附上中图分类号：

中图分类号

如果你是学商科的，可以点击“F经济”这个sheet面，查看经济学的热门书单。

从这里你也会发现很多对大学生可能帮助很大，但却是职场人士不大可能推荐的书，比如，在Z综合类书单中，《万万没想到》排名第一，这本书确实很有意思，知乎等也有很多人推荐。但是，第三名《大学四年要读的101本书》这种和大学生关系很大的书，可能不会在其他推荐渠道中看到，但数据却显示，这本书出现在了42%的高校热门浏览量书单中。

爱读书的大学生们赶紧收藏起来，拯救你的书荒。

因为是根据规则用爬虫爬取到的数据，有一些书名重复、没有找到豆瓣评分和链接的脏数据，目前确实没有想到很好的办法优化整合，有想法的小伙伴也可以评论区告诉我。

二、数据来源

数据来源于这24所高校的图书馆：

肯定有人会好奇为什么是这24个大学，首先，这几个大学图书馆检索系统都是用的汇文的接口，接口比较相似，界面长这样：

书目检索系统

如果你大学图书馆里的书目检索系统也是这个样子，那就是汇文提供的软件无疑了。这种相似的接口便于写程序爬取，其次，虽然汇文服务的高校还挺多的，但是因为各个大学的图书馆主页都不一样，我只能程序加人工的方式把这些主页链接找出来。

举个例子你就明白了：

中央财经大学：
-- 热门书籍链接：http://opac.cufe.edu.cn:8080/top/top_book.php
-- 书目检索主页链接：http://lib.cufe.edu.cn/
南开大学
-- 热门书籍链接：http://opac.lib.nankai.edu.cn/top/top_book.php
-- 书目检索主页连接：http://opac.lib.nankai.edu.cn/

链接中间的一部分字母是根据大学的特点自己设定的。

而且就算找到链接，有的大学图书馆可能是放寒假了，服务器不稳定，有的大学限制校外的访问，没有办法爬取。拿到这几个高校的数据已经算尽力了。（看在这么辛苦的份上，不双击屏幕给个赞吗？）

所以，本来的想法是尽量涵盖国内所有高校，但是逐层筛选下来，只剩下这几所高校了。

当然，也要对以上几个大学的图书馆说声感谢！感谢寒假期间还提供优质的访问服务。

当然，如果你对这份源数据很感兴趣，想进一步进行分析，也可以关注我的公众号：【布吉岛青年】，回复【书单】获取，也可以私聊我获取爬虫的源码。

三、one more thing

作为一名数据分析师，用数据说话是我的强项，对于大学生来说，可以看到一份相对客观的书单，避免个人主观的推荐。但我的真正目的，是希望在这个过程中让你感受到数据的力量，因为未来一定是数据主导的时代，不论你学什么专业，或者在从事什么工作。都应该提高对数据的敏感性，具备获取数据、应用数据的能力，以及从数据中发现现象的思维。

对于同样数据分析师或者有志于从事数据分析师职业的从业者来说，这其实是个很好的实践案例，整个过程涉及了很多数据分析相关的专业知识，包括获取数据（爬虫）、数据整理和分析、图表可视化等，本文还是主要从数据获取角度来做的，这些数据中有意思的点还未真正挖掘出来。我后续会出一份大学生阅读分析报告，并面向数据分析师，专门写一篇文章梳理一下整个技术细节，对数据分析感兴趣的请先关注我，文章发布后会第一时间推送给你。

我的终极目标是：如果你是一名在校大学生，可以根据自己的专业，找到全国高校的历届学长（姐）用自己的大学阅读经历帮你筛选出来的好书。如果你是一名数据分析师，可以从这个项目中学到从搜集数据到整理数据再到分析数据的全流程角度和方法。

当然，相比于平常工作中处理的海量数据来说，这点数据已经非常少了。

四、用到的技术：

好啦，现在说说涉及到的技术吧，非技术人员可以撤离了。

爬虫技术。爬虫来擅长处理重复的事情，所以一个主页上的数据相对来说比较好爬，但是，找到不同高校的主页、并从里边爬数据，还是个不小的挑战。
获取cookies绕过豆瓣的反爬虫机制。
如何批量生成格式优美的表格：其实你看到的这每个sheet页，包括字体、隔行底色都是用代码批量调整的。

在这个项目过程中其实也加入了自己的一些值得一提的小技巧。比如豆瓣图书的API接口已经停止服务了，如何从豆瓣主页里获得评分和链接；再比如怎样尽量减少访问豆瓣主页的次数，防止触发反爬机制（虽然最后还是触发了）等。

让我们一起为数据窒息！

【赶紧收藏】大学生都在读什么书？让Python用数据告诉你
知乎里有个问题：有没有推荐的大学生书单？[https://www.zhihu.com/question/37972...
用Python一秒自动美化表格|python的1024种玩法（3
之前写过一篇文章：大学生们都在读什么书？让Python用数据告诉你！[https://www.zhihu.com/...
《人民日报》推荐书单 “学霸”们爱看的书都在这
【“学霸”们爱看哪些书？让大数据告诉你】北大学生青睐人文社科，清华学生更爱金庸小说，人大学生对《盗墓笔记》始终偏爱...
用数据告诉你为什么Python这么火
学了这么久的python了，这次我们实际操作一番，从职业推荐网站——拉勾网，用数据来说明python的热门程度主...
这才是真正适合小白的教程：Python有什么用？数据化运营怎么做
01 用Python做数据化运营 Python是什么？数据化运营又是什么？为什么要将Python用于数据化运营？本...
数据告诉你｜大家在读什么，写什么，问什么
01 正确地勤奋时间如此宝贵，我们应该以正确的方式勤奋。那什么才是正确的勤奋姿势呢？想办法，自动化你的工作。 ...
你在读什么书
今天是4月23日，看新闻才知道今天也是世界读书日。我曾经是个爱书如命的人，可是今天我问自己，现在在读什么书呢？ ...
你在读什么书？
一直以来，看到《专注力》《影响力》《高效工作》等类似的书籍，都毫不犹豫的加入书架，开读，let us ...
最全Python数据科学小抄，赶紧收藏吧！
随着大数据的发展，数据驱动被更多人谈起，数据分析和挖掘越来越受企业界的重视。 python作为数据分析领域发展最快...
Python代码加速方法
参考简书：用 C 语言武装 Python ，让代码执行速度飞起来！简书：24式加速你的Python