美文网首页
Python爬取豆瓣读书

Python爬取豆瓣读书

作者: 扒皮狼 | 来源:发表于2020-05-20 15:49 被阅读0次

主要思路

利用Python的requests模块和beautifulsoup模块来爬取豆瓣读书的数据,并对这些数据做一定的分析。
爬取的数据包括
豆瓣图书各个分类中所有书籍的'书名', '作者/译者', '出版信息', '星级', '评分', '评价人数', '简介', '相应的豆瓣链接'。
例如

image.png
同时,通过爬取的豆瓣链接对具体书籍的质量做一定的分析,分析包括:
制作热评词云、对热评进行简单的情感分析。
有需要者可自行修改源代码进行更多的数据分析。

说明

(1)因为豆瓣严格限制爬虫,且实际使用时也没有必要爬取所有分类的图书资料,给豆瓣服务器带来不必要的压力,因此我给出的源代码一次仅能爬取一个小类的图书资料,且为单进程。
(2)在相关文件中,本人已经提供了爬取到的上百个分类的几万本图书数据,供有需要者参考。
PS
建筑、漫画、日本漫画、耽美这四个小类的数据写入excel时抛出异常,因此暂时无法提供数据。

开发工具

Python版本:3.5.4
相关模块:
requests模块、jieba模块、BeautifulSoup模块、openpyxl模块、matplotlib模块、wordcloud模块、snownlp模块以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

前期准备

image.png
image.png

使用演示1

演示内容为
爬取某个小类所有相关书籍基本信息。
截图如下

image.png
按照提示进行输入,输入完成后按下回车键即可。
最后结果将保存在results文件夹中:
image.png

结果展示1

分析内容为:
挑选其中几类利用excel的统计功能对获得的数据进行简单的分析。
以名著类为例:
评分分布图:

image
**评分Top10:**
世界童话名著连环画
坂田荣男围棋全集(共12册)
世界文学名著连环画 欧美部分(全十册)
三国演义
细说红楼梦 1-80回
世界文学名著连环画(亚非部分全五册)
算术探索
三国演义(绘画本1-5)
四大名著(套装全4册)
红楼梦
**热度(评论人数)Top10:**
围城
不能承受的生命之轻
红楼梦
百年孤独
简爱
傲慢与偏见

月亮和六便士
边城
霍乱时期的爱情
**更多内容请自行下载相关文件中提供的数据根据个人喜好进行分析选择。**

使用演示2

演示内容为
对具体书籍制作豆瓣热评词云并对豆瓣热评进行简单的情感分析。
截图如下

image.png
链接地址都保存到了excel表中,复制粘贴即可。
如下图所示
image.png

结果展示2

分析内容为
爬取豆瓣读书中具体一本书的前20页短评,并制作成词云,同时对这些短评进行简单的情感分析。
以《统计学习方法》为例
词云:

image.png
image.png
情感分析:
image.png
image.png
数值较大说明情感偏积极,否则情感偏消极。

豆瓣读书相关资料

关注公众号“python工程狮”回复‘豆瓣读书’获取。

相关文章

  • Python学习

    python爬虫(五) python爬虫爬取豆瓣电影Top250数据 利用python爬取豆瓣电影TOP250页面...

  • Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存

    Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存 目的 采用python爬虫爬取豆瓣电影Top25...

  • Python爬取豆瓣读书

    主要思路 利用Python的requests模块和beautifulsoup模块来爬取豆瓣读书的数据,并对这些数据...

  • Python学习

    python爬虫(四) python爬虫爬取豆瓣电影数据 今天我们爬取一下豆瓣电影TOP250页面电影的数据,依然...

  • Node puppeteer 爬虫

    puppeteer 中文文档 开始 爬取豆瓣书籍列表 豆瓣读书 在这个页面输入javascript,然后爬取列表案...

  • Python爬取豆瓣top250电影信息

    Python爬取豆瓣top250电影信息 1.GET,POST请求 状态码 2.re正则表达式 3.爬取豆瓣top...

  • Python爬取豆瓣电影250保存到mongodb

    Python爬取豆瓣电影250的相关信息,然后保存到mongodb。 代码如下: import requests ...

  • 爬取豆瓣电影top250提取电影分类进行数据分析

    标签(空格分隔):python爬虫 一、爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250页面如下所示...

  • pyquery爬取豆瓣读书

    本任务需求: 爬取豆瓣阅读所有书籍的书名、出版社、评分、简介等相关信息。豆瓣的网页比较干净整洁,链接很有规律 本文...

  • scrapy爬取豆瓣读书

    scrapy是个非常强大的爬虫,简单配置后就可以上手,写了个小爬虫爬取豆瓣读书的书籍信息练练手。整个流程就是:随便...

网友评论

      本文标题:Python爬取豆瓣读书

      本文链接:https://www.haomeiwen.com/subject/fwzgohtx.html