美文网首页
scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法

scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法

作者: BlueCat2016 | 来源:发表于2017-02-09 21:58 被阅读0次

http://9gag.com/ask9gag
这个网站为例,列表页明显是一个瀑布流的形式,不是传统的分页。该页面翻页是靠鼠标滚动到页面下方的时候翻滚出下一页的内容,再继续滚动的时候再翻,依次类推。
用爬虫爬取第一页的内容没什么技术含量,难的是如何进行翻页爬取以后各个页面的内容。

解决步骤:
一开始并不知道该页面是通过一种什么机制来翻页的,所以在火狐浏览器中打开f12,点击“控制台”,然后鼠标滚动到该页面底端,看看发出了什么请求:

图片.png

原来请求了这样一个网址,然后鼠标持续往下滚动,可以发现:

图片.png

看看红框内请求的网址,原来鼠标不断滚动,就会不断发出请求下一页的url。
那些形如"c=10"或者"c=20"的参数一看便知就是用来控制获取的下一批条目用的。

图片.png

猜想一下 原网页当中很可能有个地方调用了上图红框中的地址。
此时只要到原网页的源代码中去查找一下即可(当然只查找其中一段字符串,不要查整个url)。果不其然:

图片.png

发现了这个 “<a> ”标签就好办多了,往下的步骤就不再赘述了。

(待续)

相关文章

  • scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法

    以http://9gag.com/ask9gag这个网站为例,列表页明显是一个瀑布流的形式,不是传统的分页。该页面...

  • scrapy抓取瀑布流模式图片

    大家好,第一次在简书分享知识,请多指教~~ 搜狗的图片质量实在是太棒了(清晰,大方),好啦,那就开始吧! 目标网页...

  • scrapy抓取瀑布流模式图片

    大家好,第一次在简书分享知识,请多指教~~ 搜狗的图片质量实在是太棒了(清晰,大方),好啦,那就开始吧! 目标网页...

  • 原生JS实现照片瀑布流与懒加载

    什么是瀑布流和懒加载 瀑布流是目前比较流行的一种网站页面布局,会在网页上呈现参差不齐的多栏布局,页面向下滚动,网页...

  • 瀑布流和懒加载实例【转载】

    什么是瀑布流和懒加载 瀑布流是目前比较流行的一种网站页面布局,会在网页上呈现参差不齐的多栏布局,页面向下滚动,网页...

  • 实现一个瀑布流

    什么是瀑布流 瀑布流,是一种比较流行的网页布局,顾名思义是类似瀑布一样,参差不齐的多栏布局。随着页面的向下滚动,网...

  • UICollectionView的使用

    瀑布流 横向滚动

  • 原生js实现瀑布流

    浏览网页的时候经常会遇到瀑布流布局的网站。也许有些读者不了解瀑布流。瀑布流,又称瀑布流式布局。是比较流行的一种网...

  • 06 scrapy框架

    06 scrapy框架 Scrapy是纯Python开发的一个高效,结构化的网页抓取框架; Scrapy是一个为了...

  • 爬虫-python-scrapy框架基本命令

    爬虫-python-scrapy框架基本命令 创建一个项目 抓取页面 网页抓取shell XPath(选择器节点)...

网友评论

      本文标题:scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法

      本文链接:https://www.haomeiwen.com/subject/auvwittx.html