「爬虫」10爬虫之抓包分析及评论爬取（以腾讯视频评论为例）

作者: 林拂晓 | 来源:发表于2020-01-11 17:53 被阅读0次

「爬虫」10爬虫之抓包分析及评论爬取（以腾讯视频评论为例）
第四阶段爬虫整理
python-爬虫学习（文字、图片、视频）
python爬虫学习（文字、图片、视频）
Python网络爬虫四
动态网页爬取多页
Python网络爬虫二
爬取腾讯视频芈月传评论
爬取淘宝、京东评论数据并制作评论词云
用Python爬取了《雪中悍刀行》数据，并将其可视化分析后，终于

1.抓包分析

抓包分析，即将网络传输发送与接收的数据包进行抓取的操作。做爬虫时，数据并不一定就在HTML源码中，很可能隐藏在一些网址中，所以，我们要通过抓包分析出对应数据所隐藏在的网址，然后分析规律并爬取。

2.Fiddler抓包软件

（1）原理：Fiddler作为代理服务器进行抓包。

（2）常用命令行：clear清屏

（3）安装完成后，因为Fiddler默认只能抓取http协议，但大多数网址都是https协议，所以要对Fiddler进行设置：Tools--->Options--->https

①勾选Decrypt HTTPS CONNECTs

Tools-->Options--->HTTPS

②点击Actions，添加信任证书（全部选yes即可）

信任证书

（4）配置完成后即可正常抓包。

3.实例：抓取腾讯视频（电影《哪吒》）评论

（1）先打开视频页面，再打开Fiddler，将Fiddler清屏后，刷新视频页面，进行抓包，找到可能包含评论的.js文件；

抓包结果

（2）复制.js文件的url，用浏览器打开进行查看；

.js文件查看结果

（3）任意复制一段代码在IDLE中进行编译，查看其内容；

任意一段代码编译结果

（4）点击评论下方的【更多】，继续抓包，找到同名的.js文件，复制其url，两个url进行对比，观察结构的不同；

https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6559269975837074771&_=1578312314337

（5）对两个url进行分析简化；

https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6559269975837074771

【更多】

https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6563015468083864860

（6）调出视频页面源码，用url中的部分字段在源码中进行检索，找到两个.js文件之间的关系；

（7）代码编写：