美文网首页
我的豆瓣2017读书记录

我的豆瓣2017读书记录

作者: kevinou2007 | 来源:发表于2018-01-09 08:41 被阅读300次

    事情是这样的。

    我读过的书都在豆瓣上记录,到了年底,也想做个总结。以前有豆油刀马做的豆瓣统计应用,后来又有豆瓣阅读DNA,可惜这两个服务都不再提供了;豆瓣官方去年倒是支撑了一个“2016读书报告”,今年一看,2016的链接还挂在那里呢——豆瓣可真够懒的。

    所以我就想,何不自己做个记录呢?上次用python写了个自动把读过的书发到推特的“HelloWorld",已是11月底,正好有一个月时间来折腾。我的要求挺简单,对2017年读过的书做个分月统计,再做个封面墙,点击图片能链接到豆瓣条目上去——这么点小事要用一个月,显然我很有自知之明。

    网上搜了一下爬虫,找到功能强大的爬虫库scrapy。但是在本机上安装scrapy包时总是出错,刚在推上叨叨一下,推友金色葡萄 @goldengrape 就推荐了notebooks.azure.com,在微软azure云上运行的交互式笔记本jupyter notebook,据说支持40多种编程语言。对我来说,支持python就足够了。试用了一下,可以很方便地运行、调试,对我这种菜鸟简直是神赐。年底时不知是否受intel芯片bug问题影响,azure运行很慢,热心的 @goldengrape 大神又推荐了cocalc.com,还分享了他的经验: 安装anaconda记

    scrapy库功能很强大,我只是用它来做了个最简单的爬虫——抓取我的豆瓣读书记录,真是杀鸡用牛刀。参考了scrapy入门教程以及一个豆瓣爬虫样例之后,依样画葫芦,很容易就实现了,把爬下来的结果保存为json文件,以便后续处理。这中间还有个插曲,在用xpath对抓取的页面提取书籍信息时,犯了一个愚蠢的错误,承蒙推友 @jljy_ 指出,多谢相助!

    后面的事情比较简单,就是统计2017年读过的书,做个分月统计,然后用书籍的图片和豆瓣条目链接做一个封面墙。

    python有功能强大的绘图库matplotlib,本着杀鸡用牛刀的一贯精神,我只用它画了个柱状图。至于封面墙,我想也很容易,既然简书支持markdown,那么逐条按markdown格式把图片链接和条目链接写到一个文本文件里,然后拷贝到简书里发布,不就行了吗。结果封面墙出了问题,在简书里预览时能显示图片,点击发布后所有图片都显示“上传失败”。请教了简书的技术支持,说可能是豆瓣有防盗链之类的防护。此路不通,就绕道走,我发现平时用的为知笔记也支持markdown,那就贴到为知笔记里好了。2017豆瓣读书记录

    回头看了一下代码,只是实现了功能,代码毫无规范可言,修修补补的简直惨不忍睹。等以后再改吧。

    相关资源:

    scrapy入门教程
    Scrapy爬虫框架教程(二)-爬取豆瓣电影TOP250
    XPath 教程
    十分钟入门matplotlib

    相关文章

      网友评论

          本文标题:我的豆瓣2017读书记录

          本文链接:https://www.haomeiwen.com/subject/jozvnxtx.html