美文网首页
浏览器抓包辅助爬虫(post)

浏览器抓包辅助爬虫(post)

作者: _Irving | 来源:发表于2021-09-13 15:03 被阅读0次

    背景:有些网站不能直接查看源码看到页面需要爬取的信息,此时就需要使用浏览器自带的抓包(f12)

    例:有道翻译

    1、打开网站,点击F12,弹出抓包页面

    2、此时需要刷新一下页面,抓取页面的js(很重要)
    3、页签:network(抓包请求);console(控制台);elements(元素)
    4、点击network页签,我们只需关注如下几个信息:fetch/xhr(异步动态请求)

    5、先在xhr里找请求,找不到就去all里面找,点击请求内容,查看”preview"(预览)信息,我们看到里面含有我们页面输入的内容,大体就是我们需要找的请求了,我们还可以看reponse查看是否有我们需要的内容

    6、然后我们复制headers里面的内容,如下信息:url,headers,data(传参)

    7、但是我们可以查看传参信息中如果有加密内容的话,如下:

    8、我们可以点击右上三个店,点击search,尝试搜索传参内容:salt其他都行;我们查到如下js下存在这个内容,我们点击这个js

    9、此时进入了source里面,看到js内容,现在显示为一行内容,为了方便查看,我们点击左下角的花括号,就可以格式化查看了

    10、如上,我们就可以搜索找到具体的加密内容代码了,不明白的话,我们可以复制js代码再console出复制运行查看内容,我们就可以具体分析代码实现内容,然后在python里面实现同样作用

    11、例如上面的内容是11位时间戳数和headers里面的user-agent,有的可以直接调用,有的需要我们写python代码实现

    12、如果其中有内容无法确定的,我们还可以直接在js上打断点,重新翻译后就可查看具体内容,如下(这些都可以辅助我们解决加密内容),我们知道所有内容后就可以写代码了

    相关文章

      网友评论

          本文标题:浏览器抓包辅助爬虫(post)

          本文链接:https://www.haomeiwen.com/subject/peovwltx.html