美文网首页python爬虫与数据分析
反爬虫系列-JS参数篇(1)

反爬虫系列-JS参数篇(1)

作者: zone7_ | 来源:发表于2019-01-23 14:32 被阅读2次

目录

  • 瞎比比
  • 举个栗子?
  • 开始分析
  • 寒假作业
  • 又瞎比比

瞎比比

之前写了《》这篇文章,其中有些参数,如果不查看其 JS 代码,是无法知道它是怎么来的。说到这里,我们来看看啥是反爬虫?某度如是说:

他们根据ip访问频率,浏览网页速度,账户登录,输入验证码,flash封装,ajax混淆,js加密,图片,css混淆等五花八门的技术,来对反网络爬虫。

这篇文章还不涉及加密,只是查看一些参数的所以然,所以说还是比较基础的,后面再来说说加密。

举个栗子?

那么现在我们就来说说,这些参数是怎么来的。下图是我上一篇文章的一个分析点。例如:jsonpCallback



在开始分析之前,我默认你已经掌握了 JavaScript ,并且达到了一定的程度,否则你是看不懂 JS 代码的。

开始分析

请将你的 Chrome 浏览器打开至如上图效果,即是右键 --> 检查 ,到这一步呢,你是还没有打开图中的红框部分的。这时候,再按一下: Ctrl + Shift + F(Windows)红框部分就出来了,Mac 的快捷键我也不知道,如果你知道,还烦请告诉一下我。
接下来呢,在红框部分的搜索栏中输入:jsonCallback



现在,下面出现了一堆搜索内容。我们需要做的,就是从这些代码中找到我们想要的东西 -- 即是 jsonCallback 是怎么来的?有时候,运气好,你在第一条搜索结果中就找到了答案,运气差点,可能就得翻完所有代码。我们双击选择第一条结果。



未格式化的代码可读性是很差的,看了也基本懵逼。现在,在格式化的代码中搜索:jsonCallback

如果没有看到想要的结果,则继续查找下一个,或者下一个代码文件

查找过程我就不一一解说了,最后我们在第一个文件中就能找到我们想要的结果,如下图:



到这一步,结果就出来了,其实就是一些随机数的拼接。

寒假作业

分析下图中,参数 entryIds 是怎么来的?(这个参数要翻页之后,才会出现)


又瞎比比

如果这篇文章你涨知识了,点个好看可好?这是对我最好的支持。下一篇,继续分享反爬虫系列。尽请期待!

相关文章

  • 反爬虫系列-JS参数篇(1)

    目录 瞎比比 举个栗子? 开始分析 寒假作业 又瞎比比 瞎比比 之前写了《》这篇文章,其中有些参数,如果不查看其 ...

  • Python代理IP爬虫的简单使用

    前言 Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列...

  • 从零实现一个高性能网络爬虫(一)网络请求分析及代码实现

    摘要 从零实现一个高性能网络爬虫系列教程第一篇,后续会有关于url去重、如何反爬虫、如何提高抓取效率、分布式爬虫系...

  • 详解jackson注解(二)jackson反系列化注解

    详解jackson注解(二)jackson反系列化注解 jackson中用于反系列化的主要注解有: 注解描述1Js...

  • python爬虫系列-3

    1.系列文章列表 python爬虫系列-1python爬虫系列-2 源码 本篇是第三篇文章解决上篇文章的三个问题....

  • scrapy汽车之家(配置pipelines)

    之前一直再搞模拟登陆,发现爬虫的水越来越深,js是这个世界上最恶心的语言,各种加密,各种反爬,怪我太菜,被一系列反...

  • python爬虫系列-2

    1.系列文章列表 python爬虫系列-1 源码 这个爬虫是在第一篇的爬虫的基础上增加了文档正则匹配来获取所有的u...

  • 爬虫基础系列urllib——构造请求头(3)

    爬虫与反爬虫 爬虫:自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 反扒机制1 判断用户是否是浏...

  • JS反爬,万丈深渊从此不回头

    现在总是想起什么都想爬,世界之大,爬虫在手天下我有,直到我遇到JS反爬。刚开始遇到JS反爬,我以为是这样的 然后我...

  • CNN大战验证码

    介绍   爬虫江湖,风云再起。自从有了爬虫,也就有了反爬虫;自从有了反爬虫,也就有了反反爬虫。  反爬虫界的一大利...

网友评论

    本文标题:反爬虫系列-JS参数篇(1)

    本文链接:https://www.haomeiwen.com/subject/gehjjqtx.html