1.抓包分析
抓包分析,即将网络传输发送与接收的数据包进行抓取的操作。做爬虫时,数据并不一定就在HTML源码中,很可能隐藏在一些网址中,所以,我们要通过抓包分析出对应数据所隐藏在的网址,然后分析规律并爬取。
2.Fiddler抓包软件
(1)原理:Fiddler作为代理服务器进行抓包。
(2)常用命令行:clear清屏
(3)安装完成后,因为Fiddler默认只能抓取http协议,但大多数网址都是https协议,所以要对Fiddler进行设置:Tools--->Options--->https
①勾选Decrypt HTTPS CONNECTs

②点击Actions,添加信任证书(全部选yes即可)

(4)配置完成后即可正常抓包。
3.实例:抓取腾讯视频(电影《哪吒》)评论
(1)先打开视频页面,再打开Fiddler,将Fiddler清屏后,刷新视频页面,进行抓包,找到可能包含评论的.js文件;

(2)复制.js文件的url,用浏览器打开进行查看;

(3)任意复制一段代码在IDLE中进行编译,查看其内容;

(4)点击评论下方的【更多】,继续抓包,找到同名的.js文件,复制其url,两个url进行对比,观察结构的不同;
【更多】
(5)对两个url进行分析简化;
https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6559269975837074771
【更多】
https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6563015468083864860
(6)调出视频页面源码,用url中的部分字段在源码中进行检索,找到两个.js文件之间的关系;
(7)代码编写:

(8)结果查看。

网友评论