Scrapy Python爬虫实战：抓取知乎问题下所有回答！

Scrapy Python爬虫实战：抓取知乎问题下所有回答！

作者: 途途途途 | 来源:发表于2021-09-28 07:53 被阅读0次

Scrapy Python爬虫实战：抓取知乎问题下所有回答！
学习网址
【零基础学爬虫】scrapy实战：抓取知乎用户信息
scrapy实战--爬取知乎用户信息(上)
【知乎-健身】女生减脂、瘦子增肌、跑步、胖子塑形、制定计划，这里
Python模拟登录知乎
不用写代码的爬虫：采集知乎数据之抓取知乎大V的文章标题
爬虫-python-scrapy框架基本命令
爬虫实战三、PyCharm搭建Scrapy开发调试环境
Scrapy抓取知乎

今天趁摸鱼的时候玩了会知乎，突然看到一个非常有意思的话题

单身狗不知道还能干什么，所以特地把这些数据都抓下来，看看不除了第二杯半价还能干什么？

创建scrapy项目

前面教程概念讲的我嘴都麻了，估计大家看得也快烦死了，

直接进入主题吧!

项目创建完成结构如下：

需求分析

我们的目标很简单，抓取知乎该话题下的所有评论、作者、首页

评论点赞数和评论时间并将其保存做可视化分析

网页分析

F12点击查看网页源码，所有评论信息如下：都在一个名为data的数据文件中存储。

所以第一步我们需要先获取该文件从而获取我们所需信息

item定义

上面已经分析出我们的5个需求，我们在items.py中定义如下：

# 作者首页

photo = scrapy.Field()

# 作者名称

name = scrapy.Field()

# 评论时间

cmt_time = scrapy.Field()

# 评论点赞数

stars = scrapy.Field()

# 评论内容

comments = scrapy.Field()

发送请求

找到网页请求的真实链接，如下：

然后我们使用scrapy在spider_zhihu.py文件中发送请求

defparse(self, response):

zhihu_data = response.json()

ic(zhihu_data)

可以看到，我们已经成功的获取到了该json格式数据集

但是我们的数据是存储在data列表中的，所以我么还需进一步获取到data列表才能获取到目标数据

forzhinzhihu:

# 作者首页

item['photo'] ='https://www.zhihu.com/people/'+ zh['author']['member']['url_token']

# 作者名称

item['name'] = zh['author']['member']['name']

# 评论时间

cmt_time = zh['created_time']

item['cmt_time'] = time.strftime('%Y-%m-%d %H:%M', time.localtime(cmt_time)).split(' ')[0]

# 评论点赞数

item['stars'] = zh['vote_count']

# 评论内容

item['comments'] = zh['content']

'''

ic| item: {'cmt_time': '2021-06-24',

'comments': '雨衣？那个雨衣[捂脸]',

'name': '菜鸟教程',

'photo': 'https://www.zhihu.com/people/li-shi-yi-372tian',

'stars': 484}

ic| item: {'cmt_time': '2021-06-24',

'comments': '众所周知嘛，雨衣依然是下雨天穿的衣服[蹲]',

'name': '枫叶',

'photo': 'https://www.zhihu.com/people/die-qi-hua',

'stars': 187}

ic| item: {'cmt_time': '2021-06-24',

'comments': '基本是单身狗写出来的，但凡真的谈恋爱的，不会这么做！
大家看看就得了，适合自己的才是最好的。
总之，记得适度而行！',

'name': '莫小风',

'photo': 'https://www.zhihu.com/people/mo-xiao-37-62',

'stars': 804}

ic| item: {'cmt_time': '2021-06-24',

'comments': '

她小脸胖乎乎我可喜欢，我俩从大一处到现在马上大四了。祝您和您对象也长长久久，如果没有就找一个。谢谢您！ '

'

如果里面有内容容易引起误会和歧视或者可能带来风险，你可以拿出来提醒大家，而不是张口就来。谢谢您！

',

'name': '枫叶',

'photo': 'https://www.zhihu.com/people/die-qi-hua',

'stars': 402}

ic| item: {'cmt_time': '2021-06-24',

'comments': '道路千万条，安全第一条，雨衣不常备，情侣两行泪。',

'name': 'Jacob',

'photo': 'https://www.zhihu.com/people/jacob-hu',

'stars': 1405}

ic| item: {'cmt_time': '2021-06-25',

'comments': '小孩嗝屁袋',

'name': '王当心',

'photo': 'https://www.zhihu.com/people/mei-li-de-zheng-zha',

'stars': 986}

ic| item: {'cmt_time': '2021-06-26',

'comments': '现在知乎第一句不搞颜色是没有热度吗？[好奇]',

'name': 'danger soul',

'photo': 'https://www.zhihu.com/people/danger-soul-59',

'stars': 689}

'''

需求现在已经实现，我们现在要做的就是将数据抛给pipeline，让他自行去下载，这一步scrapy已经写好了，我们只需打开开关即可

ITEM_PIPELINES = {

'zhihu.pipelines.ZhihuPipeline':300,

}

多页获取

我们提取多页链接如下观察规律：

https://www.zhihu.com/api/v4/answers/1935351817/root_comments?order=normal&limit=20&offset=0&status=open

https://www.zhihu.com/api/v4/answers/1935351817/root_comments?order=normal&limit=20&offset=20&status=open

https://www.zhihu.com/api/v4/answers/1935351817/root_comments?order=normal&limit=20&offset=40&status=open

每页数据展示数目由limit=20控制；翻页参数由page控制。

所以我们多页链接构造如下：

forpageinrange(1,100+1):

url =f'https://www.zhihu.com/api/v4/answers/1935351817/root_comments?order=normal&limit=20&offset={(page-1)*20}&status=open'

数据下载

我们还是使用openpyxl将数据下载到Excel中然后做数据分析。

wb = Workbook()

ws = self.wb.active

ws.append(['作者首页','作者名称','评论时间','点赞人数','评论内容'])

line = [item['photo'], item['name'], item['cmt_time'], item['stars'], item['comments']]

ws.append(line)

wb.save('../知乎.xlsx')

数据抓取成功部分展示如下：

词云展示

我们使用stylecloud来绘图，部分代码如下：

有兴趣的小伙伴可以参考：

如何使用python实现一个优雅的词云？（超详细）

c_title = exist_col['评论内容'].tolist()

# 观影评论词云图

wordlist = jieba.cut(''.join(c_title))

result =' '.join(wordlist)

# 设置停用词

stop_words = ['的','是','看','了','你','我','吗','在','没','吗','这','不','就','人','好','有','都','什么','没有']

pic ='../img.jpg'

gen_stylecloud(text=result,

icon_name='fab fa-python',

font_path='msyh.ttc',

background_color='white',

output_name=pic,

custom_stopwords=stop_words

)

print('知乎词云图绘制成功！')

知乎词频图

这里我们使用熊猫来读取数据,并去除空行。使用jieba制作分词

有兴趣的小伙伴可以参考

让人无法拒绝的pandas技巧，简单却好用到爆！

知乎评论出现频率最高的前十个词分别如下：

# 词频设置

all_words = [wordforwordinresult.split(' ')iflen(word) >1andwordnotinstop_words]

wordcount = Counter(all_words).most_common(10)

'''

('雨衣', '思考', '一起', 'br', '对象', '捂脸', '女朋友', '可以', '一个', '就是')

(62, 58, 48, 42, 29, 28, 26, 22, 20, 18)

'''

词频图如下：

最大值62，最小值18，均值29

评论点赞最多

我们使用pandas找出点赞第一的评论如下：

# 读取数据

pd_data = pd.read_excel('../知乎.xlsx')

# 最多点赞数

max_star = pd_data[pd_data['点赞人数'] == pd_data['点赞人数'].max()]

print(max_star)

'''

作者首页作者名称评论时间点赞人数评论内容

https://www.zhihu.com/people/jacob-hu Jacob 2021-06-24 1405 道路千万条，安全第一条，雨衣不常备，情侣两行泪。

'''

自古人才出评论区，这话一点不差啊，

有对象的老板能给我解释这句话什么意思嘛

情感分析

我们以点赞最多评论为例分析观众对知乎的一些看法进行简单分析

我们是使用的库是SnowNLP

SnowNLP是一个基于Python的情感分析工具库，可以进行中文分词、词性标注、情感分析、文本分类、文本关键词提取等。

SnowNLP的情感值取值范围为0到1之间，值越大，说明情感倾向越积极。

# 情感分析

pinglun ='道路千万条，安全第一条，雨衣不常备，情侣两行泪。'

Sentiment_analysis = SnowNLP(pinglun).sentiments

print(Sentiment_analysis)

'''

0.19973577495669226

'''

得到的情感值为 0.19973577495669226，情感值较低

各位老湿机还是安全驾驶啊！

对此，你有什么看法？

相关文章

Scrapy Python爬虫实战：抓取知乎问题下所有回答！
今天趁摸鱼的时候玩了会知乎，突然看到一个非常有意思的话题单身狗不知道还能干什么，所以特地把这些数据都抓下来，看看...
学习网址
Python开源爬虫项目代码：抓取淘宝、京东、QQ、知网数据 scrapy_jingdong[9]- 京东爬虫。基...
【零基础学爬虫】scrapy实战：抓取知乎用户信息
简介知乎用户信息是非常大的，本文是一个scrapy实战：怎样抓取所有知乎用户信息。爬取的思路如下图所示：选择一...
scrapy实战--爬取知乎用户信息(上)
背景使用Scrapy分布式爬取知乎所有用户个人信息!项目地址爬取知乎所有用户大规模抓取静态网页Scrapy绝...
【知乎-健身】女生减脂、瘦子增肌、跑步、胖子塑形、制定计划，这里
使用爬虫抓取了知乎“健身”话题下1000条精华回答（按点赞数倒序），处理后把有价值的问答贴在下面，收藏此篇就可以随...
Python模拟登录知乎
之前写过一版Python模拟登录知乎，并抓取知乎某个问题下答案的帖子。随着时间的推进和知乎技术的变革，此前的代码已...
不用写代码的爬虫：采集知乎数据之抓取知乎大V的文章标题
我们的教程直接点，不来虚的，先给个实战案例大家，过过瘾吧。不用写代码的爬虫实战案例：采集知乎数据之抓取知乎大V的...
爬虫-python-scrapy框架基本命令
爬虫-python-scrapy框架基本命令创建一个项目抓取页面网页抓取shell XPath（选择器节点）...
爬虫实战三、PyCharm搭建Scrapy开发调试环境
一、环境准备 Python开发环境以及Scrapy框架安装，参考：爬虫实战一、Scrapy开发环境（Win10+A...
Scrapy抓取知乎
今天给大家带来如何抓取知乎网站中最新热点栏目中的信息，获取里面的标题、内容、作者、网友评论、点赞量等信息。获取这些...

网友评论

本文标题：Scrapy Python爬虫实战：抓取知乎问题下所有回答！

本文链接：https://www.haomeiwen.com/subject/tnslnltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Scrapy Python爬虫实战：抓取知乎问题下所有回答！|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！