美文网首页
「爬虫」10爬虫之抓包分析及评论爬取(以腾讯视频评论为例)

「爬虫」10爬虫之抓包分析及评论爬取(以腾讯视频评论为例)

作者: 林拂晓 | 来源:发表于2020-01-11 17:53 被阅读0次

    1.抓包分析

        抓包分析,即将网络传输发送与接收的数据包进行抓取的操作。做爬虫时,数据并不一定就在HTML源码中,很可能隐藏在一些网址中,所以,我们要通过抓包分析出对应数据所隐藏在的网址,然后分析规律并爬取。

    2.Fiddler抓包软件

    (1)原理:Fiddler作为代理服务器进行抓包。

    (2)常用命令行:clear清屏

    (3)安装完成后,因为Fiddler默认只能抓取http协议,但大多数网址都是https协议,所以要对Fiddler进行设置:Tools--->Options--->https

    ①勾选Decrypt HTTPS CONNECTs

    Tools-->Options--->HTTPS

    ②点击Actions,添加信任证书(全部选yes即可)

    信任证书

    (4)配置完成后即可正常抓包。

    3.实例:抓取腾讯视频(电影《哪吒》)评论

    (1)先打开视频页面,再打开Fiddler,将Fiddler清屏后,刷新视频页面,进行抓包,找到可能包含评论的.js文件;

    抓包结果

    (2)复制.js文件的url,用浏览器打开进行查看;

    .js文件查看结果

    (3)任意复制一段代码在IDLE中进行编译,查看其内容;

    任意一段代码编译结果

    (4)点击评论下方的【更多】,继续抓包,找到同名的.js文件,复制其url,两个url进行对比,观察结构的不同;

    https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6559269975837074771&_=1578312314337

    【更多】

    https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6563015468083864860&_=1578313115082

    (5)对两个url进行分析简化;

    https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6559269975837074771

    【更多】

    https://video.coral.qq.com/filmreviewr/c/upcomment/zr5a67l333ehzu9?callback=_filmreviewrcupcommentzr5a67l333ehzu9&reqnum=3&source=132&commentid=6563015468083864860

    (6)调出视频页面源码,用url中的部分字段在源码中进行检索,找到两个.js文件之间的关系;

    (7)代码编写:

    爬取腾讯视频评论的代码

    (8)结果查看。

    爬取结果

    相关文章

      网友评论

          本文标题:「爬虫」10爬虫之抓包分析及评论爬取(以腾讯视频评论为例)

          本文链接:https://www.haomeiwen.com/subject/vbkbactx.html